当前位置:网站首页>行业洞察 | 语音识别真的超过人耳朵了吗?
行业洞察 | 语音识别真的超过人耳朵了吗?
2022-07-28 02:07:00 【Magic Data】

近年来,随着人工智能技术的发展,语音识别的性能得到显著的提升。很多公司对外宣称,语音识别技术的准确率已经达到98%以上,难道语音识别的效果真的超过人耳了吗?
当然不能下此结论。毕竟人脑才是世界上最精准的仪器。网上有句俗语说的很好,“离开测试集说准确率一如耍流氓”。当在安静环境下,识别准确率大概能到98%,但是当处于嘈杂环境,准确率就会迅速下降。
当处于一个派对上,语音识别机器很难从重叠的语音中拾取目标说话人的语音,更难以识别准确,这就是语音识别领域的经典问题——鸡尾酒会问题(Cooktail Party Problem)。在各种声音的混杂中,听到自己想注意的声音,是人类的本能。但是对于机器来说,这就是“一锅粥”,必须通过语音分离技术,先将目标语音分离出来,之后才能进行识别。
基于神经网络的语音分离算法
语音分离是语音识别中解决“鸡尾酒会”问题的第一步。在语音识别的前端加上语音分离技术,把目标说话人的声音和其他干扰分开就可以提高语音识别系统的鲁棒性。鸡尾酒会问题指的是采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。
目前主流的语音分离算法是基于神经网络,神经网络的用途主要是学习一个理想二值掩蔽(Ideal Binary Mask,IBM),来决定频谱中的目标信号在哪些时频单元(Time-frequency Units)中做主导。如果把一个听觉信号在时间域和频率域两个维度(时频二维)进行表示,我们可以把时、频这两个维度表示成一个二维矩阵,这个矩阵中的每一个元素称为一个时频单元。如果对于目标信号不需要分得那么细,只需要分一次——属于目标声源,或是背景噪声,那么时频单元就可以量化为2个值,比如0和1,这便是二值。这样,从理想二值掩蔽的角度考虑,这个问题就变成了一个有监督学习(Supervised Learning)的分类问题。
多模态融合的语音分离算法
除了上述纯语音做语音分离,解决鸡尾酒会问题,近期还有不少文章以多模态的方法解决鸡尾酒会问题。谷歌从YouTube上搜寻了10万个高质量讲座和演讲视频生成训练样本,通过约2000个小时的视频片段分析,训练出基于多流卷积神经网络(CNN)的模型,将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。实验中,输入是一名或多名发声对象,同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨,并对应上相应的说话者。
无论是多模态还是单模态的语音分离算法,都离不开对话语音数据的支撑,多个说话人对话语音数据采集经费高、标注困难。而Magic Data作为全球领先的AI数据服务提供商,能够为算法工程师们提供众多高质量的数据进行支撑,为解决鸡尾酒会问题提供实验机床。
Edward Colin Cherry在出版于1957年的On Human Communication一书中说道:“到目前为止,还没有哪个机器算法能够解决‘鸡尾酒会’问题。”没想到到目前为止,这句断言仍然没有被完全推翻。
边栏推荐
- Distributed transaction Senta (I)
- 小程序已获取数据库合集中的总记录、用户位置,怎么用Aggregate.geoNear将经纬度由近到远排列?
- JS event object 2 e.charcode character code e.keycode key code box moves up, down, left and right
- 数据中台夯实数据基础
- 【英雄哥七月集训】第 26天:并查集
- Consolidate the data foundation in the data center
- Introduction to the reduce() function in JS
- Opengauss source code, what ide tools are used to manage, edit and debug?
- openGauss源代码,用什么IDE工具管理、编辑、调试?
- Interpretation of cesium3dtilesets using customshader and examples of Omni effects
猜你喜欢

Deep residual learning for image recognition shallow reading and Implementation

Skills in writing English IEEE papers

Flutter God operation learning (full level introduction)

Confusion matrix in CNN | pytorch series (XXIII)

Day 8 of DL

Interpretation of cesium3dtilesets using customshader and examples of Omni effects

Redis aof日志持久化

vscode debug显示多列数据

Flutter神操作学习之(满级攻略)
![[signal denoising] signal denoising based on Kalman filter with matlab code](/img/9e/9e569c83dc3106570cf7571056867f.png)
[signal denoising] signal denoising based on Kalman filter with matlab code
随机推荐
Niuke-top101-bm340
Gbase8s how to delete data in a table with a foreign key relationship
从硬件编程到软件平台的ci/cd
Center-based 3D Object Detection and Tracking(基于中心的3D目标检测和跟踪 / CenterPoint)论文笔记
tfx airflow 使用体验
openGauss源代码,用什么IDE工具管理、编辑、调试?
Constant power wireless charging based on stm32
Arm32 for remote debugging
Job 7.27 IO process
vscode debug显示多列数据
selenium+pytest+allure综合练习
Some shortest path problems solved by hierarchical graph
P6118 [JOI 2019 Final]珍しい都市 题解
clientY vs pageY
分布式 session 的4个解决方案,你觉得哪个最好?
数字孪生农业丨智慧农业稻米加工厂从“看天吃饭”到“知天而作”
Pycharm 快速给整页全部相同名称修改的快捷键
MySQL index learning
clientY vs pageY
Newline required at end of file but not found.