当前位置:网站首页>行业洞察 | 语音识别真的超过人耳朵了吗?
行业洞察 | 语音识别真的超过人耳朵了吗?
2022-07-28 02:07:00 【Magic Data】

近年来,随着人工智能技术的发展,语音识别的性能得到显著的提升。很多公司对外宣称,语音识别技术的准确率已经达到98%以上,难道语音识别的效果真的超过人耳了吗?
当然不能下此结论。毕竟人脑才是世界上最精准的仪器。网上有句俗语说的很好,“离开测试集说准确率一如耍流氓”。当在安静环境下,识别准确率大概能到98%,但是当处于嘈杂环境,准确率就会迅速下降。
当处于一个派对上,语音识别机器很难从重叠的语音中拾取目标说话人的语音,更难以识别准确,这就是语音识别领域的经典问题——鸡尾酒会问题(Cooktail Party Problem)。在各种声音的混杂中,听到自己想注意的声音,是人类的本能。但是对于机器来说,这就是“一锅粥”,必须通过语音分离技术,先将目标语音分离出来,之后才能进行识别。
基于神经网络的语音分离算法
语音分离是语音识别中解决“鸡尾酒会”问题的第一步。在语音识别的前端加上语音分离技术,把目标说话人的声音和其他干扰分开就可以提高语音识别系统的鲁棒性。鸡尾酒会问题指的是采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。
目前主流的语音分离算法是基于神经网络,神经网络的用途主要是学习一个理想二值掩蔽(Ideal Binary Mask,IBM),来决定频谱中的目标信号在哪些时频单元(Time-frequency Units)中做主导。如果把一个听觉信号在时间域和频率域两个维度(时频二维)进行表示,我们可以把时、频这两个维度表示成一个二维矩阵,这个矩阵中的每一个元素称为一个时频单元。如果对于目标信号不需要分得那么细,只需要分一次——属于目标声源,或是背景噪声,那么时频单元就可以量化为2个值,比如0和1,这便是二值。这样,从理想二值掩蔽的角度考虑,这个问题就变成了一个有监督学习(Supervised Learning)的分类问题。
多模态融合的语音分离算法
除了上述纯语音做语音分离,解决鸡尾酒会问题,近期还有不少文章以多模态的方法解决鸡尾酒会问题。谷歌从YouTube上搜寻了10万个高质量讲座和演讲视频生成训练样本,通过约2000个小时的视频片段分析,训练出基于多流卷积神经网络(CNN)的模型,将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。实验中,输入是一名或多名发声对象,同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨,并对应上相应的说话者。
无论是多模态还是单模态的语音分离算法,都离不开对话语音数据的支撑,多个说话人对话语音数据采集经费高、标注困难。而Magic Data作为全球领先的AI数据服务提供商,能够为算法工程师们提供众多高质量的数据进行支撑,为解决鸡尾酒会问题提供实验机床。
Edward Colin Cherry在出版于1957年的On Human Communication一书中说道:“到目前为止,还没有哪个机器算法能够解决‘鸡尾酒会’问题。”没想到到目前为止,这句断言仍然没有被完全推翻。
边栏推荐
猜你喜欢

IO流:节点流和处理流详细归纳。

【微信小程序开发(六)】绘制音乐播放器环形进度条

Using pytorch's tensorboard visual deep learning indicators | pytorch series (25)

One month's experience of joining Huawei OD

一次跨域问题的记录

app 自动化 环境搭建(一)

vscode debug显示多列数据

Opengauss Developer Day 2022 sincerely invites you to visit the "database kernel SQL Engine sub forum" of Yunhe enmo

【stream】并行流与顺序流

Data center construction (III): introduction to data center architecture
随机推荐
MySQL index learning
app 自动化 环境搭建(一)
[TA frost wolf \u may - hundred people plan] Figure 3.7 TP (d) r architecture of mobile terminal
GAMES101复习:光线追踪(Ray Tracing)
Gbase8s how to delete data in a table with a foreign key relationship
数据湖:各模块组件
[QNX hypervisor 2.2 user manual]9.10 pass
Interpretation of cesium3dtilesets using customshader and examples of Omni effects
Retainface use error: modulenotfounderror: no module named'rcnn.cyton.bbox'
GBase8s如何在有外键关系的表中删除数据
CNN中的混淆矩阵 | PyTorch系列(二十三)
Redis群集
Oracle basicfile lob field space recycling shrink space doubts
CNN循环训练的解释 | PyTorch系列(二十二)
Deep residual learning for image recognition shallow reading and Implementation
[red team] att & CK - file hiding
[QNX Hypervisor 2.2用户手册]9.10 pass
为什么登录时,明明使用的是数据库里已经有的账号信息,但依旧显示“用户不存在”?
How do you use the jar package sent by others (how to use the jar package sent by others)
Is it safe to buy funds on Alipay? I want to make a fixed investment in the fund