当前位置：网站首页>行业洞察 | 语音识别真的超过人耳朵了吗？

行业洞察 | 语音识别真的超过人耳朵了吗？

2022-07-28 02:07:00 【Magic Data】

近年来，随着人工智能技术的发展，语音识别的性能得到显著的提升。很多公司对外宣称，语音识别技术的准确率已经达到98%以上，难道语音识别的效果真的超过人耳了吗？

当然不能下此结论。毕竟人脑才是世界上最精准的仪器。网上有句俗语说的很好，“离开测试集说准确率一如耍流氓”。当在安静环境下，识别准确率大概能到98%，但是当处于嘈杂环境，准确率就会迅速下降。

当处于一个派对上，语音识别机器很难从重叠的语音中拾取目标说话人的语音，更难以识别准确，这就是语音识别领域的经典问题——鸡尾酒会问题（Cooktail Party Problem）。在各种声音的混杂中，听到自己想注意的声音，是人类的本能。但是对于机器来说，这就是“一锅粥”，必须通过语音分离技术，先将目标语音分离出来，之后才能进行识别。

基于神经网络的语音分离算法

语音分离是语音识别中解决“鸡尾酒会”问题的第一步。在语音识别的前端加上语音分离技术，把目标说话人的声音和其他干扰分开就可以提高语音识别系统的鲁棒性。鸡尾酒会问题指的是采集的音频信号中除了主说话人之外，还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。

目前主流的语音分离算法是基于神经网络，神经网络的用途主要是学习一个理想二值掩蔽（Ideal Binary Mask，IBM），来决定频谱中的目标信号在哪些时频单元（Time-frequency Units）中做主导。如果把一个听觉信号在时间域和频率域两个维度（时频二维）进行表示，我们可以把时、频这两个维度表示成一个二维矩阵，这个矩阵中的每一个元素称为一个时频单元。如果对于目标信号不需要分得那么细，只需要分一次——属于目标声源，或是背景噪声，那么时频单元就可以量化为2个值，比如0和1，这便是二值。这样，从理想二值掩蔽的角度考虑，这个问题就变成了一个有监督学习（Supervised Learning）的分类问题。

多模态融合的语音分离算法

除了上述纯语音做语音分离，解决鸡尾酒会问题，近期还有不少文章以多模态的方法解决鸡尾酒会问题。谷歌从YouTube上搜寻了10万个高质量讲座和演讲视频生成训练样本，通过约2000个小时的视频片段分析，训练出基于多流卷积神经网络（CNN）的模型，将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。实验中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨，并对应上相应的说话者。

无论是多模态还是单模态的语音分离算法，都离不开对话语音数据的支撑，多个说话人对话语音数据采集经费高、标注困难。而Magic Data作为全球领先的AI数据服务提供商，能够为算法工程师们提供众多高质量的数据进行支撑，为解决鸡尾酒会问题提供实验机床。

Edward Colin Cherry在出版于1957年的On Human Communication一书中说道：“到目前为止，还没有哪个机器算法能够解决‘鸡尾酒会’问题。”没想到到目前为止，这句断言仍然没有被完全推翻。

原网站

版权声明
本文为[Magic Data]所创，转载请带上原文链接，感谢
https://blog.csdn.net/weixin_47718443/article/details/125978166