当前位置:网站首页>AiTalk创始人梁宇淇:镜像连接虚拟与现实的纽带
AiTalk创始人梁宇淇:镜像连接虚拟与现实的纽带
2022-07-29 05:08:00 【弹性计算百晓生】

图:2022 阿里云视觉计算私享会现场
5 月 11 日,在“2022 阿里云视觉计算私享会”上,AiTalk 创始人梁宇淇为大家带来了题为《仿人智能交互:镜像连接虚拟与现实的纽带》的主题分享。以下内容根据他的演讲整理而成。

现实生活,我们经常在机场、地铁站等公共场所见到一些实体机器人,也有很多比如小度、小冰、小爱等语音机器人。但这类机器人与人类的交互存在诸多障碍,往往沦为一种摆设。

数字人与上述各种机器人的本质是一样的,它是一种机器人的表现形式。然而数字人作为元宇宙的核心,依然缺乏实时的沟通和交流能力。
目前市面上主要存在几类数字人:
第一类:比如像柳夜熙、AYAYI 等通过传统的 CG 动画制作、偏虚拟偶像类的产品。制作方法需要团队有很强的创意策划能力,但它很难超越阿凡达以及阿凡达塑造的元宇宙世界,仅适用于电影娱乐。
第二类:由百度、商汤、相芯这类公司出品,基本采用统一的技术架构,采用云端渲染加推流的方式。但它的并发会受到很大限制,且很难适应终端的应用环境,比如弱网、无网或极端的嘈杂环境。此外,因为需要额外的 GPU 云服务器以及直播推流带宽,会额外增加很多成本。
第三类:小冰、小度类型的语音交互产品。单纯从算力角度来看,AI 已经远超人类。但是此类语音产品在与人进行交互时,始终无法顺畅、无障碍地与人对话。加多层神经网络、使用更优的深度学习模型,也依然无法解决语音产品与人交互时不符合人的日常习惯和逻辑的问题。

正是因为以上这几点,我们将研发重心放在了赋予数字人零障碍沟通和互动的能力上。很多客户对数字人的要求是:与人交流的时候能够做到“对答如流”。
核心技术重点围绕以下几点展开:
1.STEP 算法
我们自主研发了 STEP 算法,它的原理非常简单,任何人表达的任何意图都可以放在特定的场景下,围绕若干话题,通过特定事项来达到期望的目的,它能够解决 AI 与人交互时的习惯和逻辑问题。
比如问 Siri 哪里可以喝咖啡,他会直接推送搜索结果。但正常人交流时的逻辑应该是:A 说想喝咖啡,B 可能会告诉他楼下有哪几家咖啡店,有哪些种类的咖啡。因此,step 算法重点就是解决逻辑问题。
2.识别干扰
与语音产品进行交互时,如果屏幕前有多个用户,则不管用户是否在与 AI 对话或与朋友对话,它都会将声音收录进去,并做出回应,然而这并不符合正常生活习惯。因此,需要对多人对话进行识别和干扰排除。
目前我们已经能够实现当 AI 面前有多人对话,他能够判断当前用户是否在与自己对话,是否需要回应。
3.对话打断
出现了听不懂的专有名词,或者对内容不感兴趣时,会打断对话。打断以后会考虑是否做恢复。
4.无唤醒词
在与市面上大部分语音智能产品交互时,一般需要喊“嘿 siri”或按键以唤醒 AI。而在线下 4S 店、银行网点、公交站等地与 AI 交互时,用户往往无法记住所有 AI 的唤醒词,因此需要做无唤醒词的处理以方便用户使用。

解决了仿人交互的问题,让 A.I.不再智障。我们还需要对人的形象数字化。不同于其他厂商“云端+推流”的技术架构,我们坚持采用客户端实时渲染处理,解决了延迟问题。对 CPU 的消耗不超过 10%,而且可以兼容 iOS9.0/android4.4,意味着七八年前 1000 元左右的安卓手机也可以运行此程序,可以不依赖网络。

采用云端分离的方式,好处在于,无论在哪里,都可以将它当成一个“人”。沟通和交互时,不管是 3D 全息、智能交互屏,还是未来的脑机接口或在大脑皮层植入芯片,都可以营造面对面聊天的效果。
图像的处理、与人物之间的交互都放在端上处理;而云主要用于强化沟通和互动的能力,更多地用来做思考和推理,主要是数据处理和训练:就像人们要接受培训和教育,不断充电、完善自我。

AiTalk 对外输出主要有三类标准化产品:
第一类:仿人交互软件。它又分为两种:一种是 SDK,可以针对比如手机 App 或智能家居产品,完全标准化,且成本很低。比如手机 APP 的 license 授权可能只需低于 0.1 元;另一种是针对银行网点、4S 店、商超、公共场所等提供一整套软件,一般会搭载 XR 硬件。
第二类:XR 硬件。它具备多模态感知的能力,可以与它进行视觉层面、听觉层面的等多个层面的交互,而且它可以适用终端弱/无网和噪音的处理。
第三类:配套的应用服务,它能够处理交互过程,AI 与人交互的时候,不只是简单的聊天,而是能够帮助企业或用户完成相关的事务和流程。比如办工商注册,数字人会推送相关流程,并协助完成某些流程的办理,过程中还有 VR/AR 方面的应用,增强用户沉浸式的交互。

与其他友商相比,AiTalk 更加注重于仿人交互方面的探索,优势在于以下两个方面:
1. 客户端实时渲染。我们是唯一一家采用边缘计算的公司,不存在任何并发限制,而且没有延迟,可以让三四五六七八九线的用户零成本使用相关产品。模型精度可达 150 万面,成本降低 90%以上。
2. 虚拟数字人沟通能力。沟通互动能力是数字人的灵魂,我们采用大量仿生技术,让虚拟数字人具备与人进行零障碍交流和互动的能力,不再智障。只有达到这一点,数字人/AI 才能真正大规模进入商业化应用。
以上是我的全部分享,特别感谢阿里云的邀请以及长久以来合作伙伴的大力支持,谢谢大家。
点击这里,查看本次视觉计算私享会的回放视频。
边栏推荐
- NumPy基础
- Apache POI实现Excel导入读取数据和写入数据并导出
- Adb常用命令列表
- Cache penetration, cache breakdown, cache avalanche and Solutions
- webgl1.0下texture2D和texture2DProj区别
- Arfoundation starts from scratch 3- create an arfoundation project
- MySQL sorts the queried result set according to the specified sequence
- 时间序列分析的表示学习时代来了?
- Mysql多对多关系,分组拼接把多个数据查询到一条数据上
- 小鲁客栈---预告篇
猜你喜欢

Young freshmen yearn for more open source | here comes the escape guide from open source to employment!

浅谈AspectJ框架

ARFoundation从零开始9-AR锚点(AR Anchor)

365天挑战LeetCode1000题——Day 037 元素和小于等于阈值的正方形的最大边长 + 满足条件的子序列数目

Deep learning brush a bunch of tricks of SOTA

Deadlock analysis using jstack, jconsole, and jvisualvm

三层项目的架构分析及构造方法的参数名称注入

Rimworld通过SteamCMD上传创意工坊的方法

QT学习:使用JSON/XML等非ts文件实现多语言国际化

OCCT学习002-----环境搭建
随机推荐
Jackson parsing JSON detailed tutorial
VirtualBox has expanded the capacity of virtual hard disk (without modifying the original data)
Open the tutorial of adding and modifying automatically playing music on the open zone website
数据泄漏、删除事件频发,企业应如何构建安全防线?
How mongodb inserts, deletes and updates documents
Helm chart for Kubernetes
The latest tank battle 2022 - Notes on the whole development -2
sql日志
C 语言手写 QQ-AI 版
365天挑战LeetCode1000题——Day 038 公交站间的距离 + 基于时间的键值存储 + 转变数组后最接近目标值的数组和 + 有界数组中指定下标处的最大值
About realizing page Jump of website in Servlet
Modification of annotation based three-tier project and the way of adding package scanning
AUTOSAR从入门到精通100讲(七十八)-AUTOSAR-DEM模块
Qml类型:State 状态
321,京东言犀×NLPCC 2022挑战赛开赛!
Google GTEST event mechanism
01-01-osg GL3 环境搭建
传奇如何一台服务器配置多个版本微端更新
三层项目的架构分析及构造方法的参数名称注入
SM整合原来这么简单,步骤清晰(详细)