当前位置:网站首页>语音识别新一轮竞争打响,自然对话会是下一个制高点吗?
语音识别新一轮竞争打响,自然对话会是下一个制高点吗?
2022-08-03 15:22:00 【51CTO】
当前,全球智能语音企业在朗读风格语音的字错误率基本保持同等水平,随着垂直化应用场景的增加,越来越多的企业开始加大在自然对话语音识别技术方面的研发投入。
万亿规模的庞大市场
多年来,语音识别技术越来越受到重视。它正成为与电脑、智能手机和智能设备相关的个人生活的一个常见部分。
语音设备的快速增长,消费者对智能设备的需求增加,以及车内信息娱乐系统的集成,是推动语音识别市场增长的关键因素。另外,人工智能在汽车、医疗保健和消费电子产品中的日益频繁使用,增加了对语音设备的需求。同时,对智能扬声器、消费电子产品、智能可穿戴设备、联网汽车、智能家居和医疗保健等设备中的语音应用程序的需求不断增长,是推动语音识别市场的关键因素之一。
根据市场研究机构Meticulous Market Research发布的最新报告预测,到2025年,语音识别市场规模将达到267.9亿美元,从2019年到2025年,将以17.2%的年复合增长率持续增长。
不降反升的字错误率
众所周知,语音识别系统常用的评估标准是词错误率(Word ErrorRate,WER),也称字错误率。为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换(Substitution)、删除(Deletion)或者插入(Insertion)某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。其公式如下:
抛开这些专业的测算方法,通过频繁使用身边的智能化语音产品,也可以清晰的感知出语音识别效果,但好像并不是所有的识别效果都是令人满意的。我们不妨通过两个案例来看一下。
案例一 新闻联播语音识别评测
数据来源
通过YouTube、CCTV中央电视台官方频道爬取2019年全年新闻联视频内容。分12个月,每个月抽取2期,共计24期节目,并抽取音频,共计时长约12小时。
场景特点
环境:主体为密闭录音棚,安静,无背景噪声。穿插少量会场、户外采访拾音。
设备:专业高保真麦克风,等同于近场,声音质量极好。
说话人:主体为专业播音员,穿插少量领导人讲话,记者及被采访对象。
说话方式:主体为朗读式,中等语速,几乎无口误、重复、停顿等现象口音、方言:无,极标准普通话。
内容领域:国家时政新闻。
评测结果
案例二 德云社相声语音识别评测
数据来源
通过德云社Youtube官方频道专场播放列表随机选取5期,累计约2.5小时。
场景特点
环境:多为演出现场舞台,环境空旷,存在混响,存在背景噪声(观众笑声、掌声、起哄等),无背景音乐。
拾音设备:相声演员前方的立式麦克风或者领夹麦克风、近场。
说话人:郭德纲、于谦、岳云鹏等德云社相声演员。
说话方式:相声特有,双人交替,语速中等偏快。
方言:大部分为普通话,偶有少量模仿的方言片段
内容领域:娱乐、相声段子。
评测结果
为什么会出现这么大的差别
对比以上两个案例,我们不难看出,新闻联播的场景特点非常接近语音识别的理想场景,基本可以代表现有的中文语音识别系统性能上限,字错误率达1%-2%,即100个字中只发生一到两个字的错误。
然而,更多的场景可能更接近案例二,说话人的发音习惯更贴近日常沟通行为,在发声时会有大量的连音、吞音、发音变形、咬字不清等,包括一些无意识的“嗯、啊、呃”等,不会刻意去控制语音、发音习惯等,再加上外部环境与方言、语种等因素的影响,这种偏向于日常的自然对话风格的语音识别率不是很理想。
如果一个智能语音产品要求说话人达到新闻联播主播的声音标准才能给出足够多的识别结果,基本是不可能的。可见,自然对话风格的语音识别结果才是判断一个语音识别平台是否优秀的最高标准。
一份来自数据堂的解决方案
好的AI需要更好的训练数据。目前数据堂拥有20万小时成品语音数据集,其中,自然对话风格的语音数据近4万小时,包括中文普通话、方言、英语、日语、韩语、印地语、越南语、阿拉伯语、西班牙语、法语、德语、意大利语等。
考虑到多信道对识别率的影响,中文普通话自然对话语音数据涵盖了手机、电话、网络等多种信道类型。
数据堂自然对话语音数据集还覆盖了全国七大方言区,发音人来自不同地域及城市、年龄性别覆盖均衡。语种方面包含日、韩、印地、越南、阿拉伯等亚洲语系,法、德语、意大利、西班牙等欧洲语系及各国人英语对话等。
在采集数据时,完全没有预设语料,只给出话题列表,录音人从中挑选多个自己感兴趣并熟悉的话题展开对话,确保对话语音自然流畅。
所有音频都经过了严格的人工转写及质检,标注文本内容、有效句子的起止时间点、录音人身份标识等,句准确率高达95%以上。
数据堂的对话式语音成品数据集已经服务于全球100多家企业的语音识别产品中,成功应用到智能客服、智能会议、视频字幕自动生成等众多场景。
后疫情时代下的AI赋能
疫情改变了生活,也改变了我们的生活方式。人工智能技术的应用场景更加丰富,也更加落地。
与往届大会不同,2020年世界制造业大会更加凸显了人工智能技术赋能之广泛。在主论坛开幕式环节,大众集团董事会主席迪斯、惠而浦全球首席执行官马克·比泽尔、阿里巴巴集团董事会主席张勇、华为技术有限公司常务董事余承东等出席会议并做相关演讲,讯飞听见实时双语字幕位于主屏幕两侧,为国际会议的无障碍交流提供了技术支持。
讯飞听见在华为昇腾A.I.新品全球发布会提供自然风格的中文实时转写、翻译德语、俄语、法语、韩语等多语种字幕服务。
2022年2月10日,Cerence赛轮思宣布将为日本先锋株式会社(Pioneer Corporation)提供自然的对话式语音识别技术支持。无论日本消费者驾驶任何类型的汽车,通过先锋的智能化产品都可以为他们带来安全的高效的日语语音个性化体验。
人工智能是一个伟大的历史进程,其起步至今,已迎来了人工智能规模化落地元年。未来,随着5G等技术的同步发展,越来越丰富的语音识别应用场景也将促进不同语言、不同肤色、不同地域之间的无障碍沟通。
附数据堂自然对话语音数据清单:
边栏推荐
- 交大医学院临床研究中心如何将 ModelWhale 应用于临床医生教学、研究丨数据科学 x 临床医学
- Clickhouse Filling the Pit 3: Left Join changed to Right Join, resulting in incorrect statistical results
- 方舟生存进化开服需要多少钱
- 一次做数据报表的踩坑经历,让我领略了数据同步增量和全量的区别
- 扫雷?拿来吧你(递归展开+坐标标记)
- 问题7:功能测试花瓶用例
- 问题9:为什么有边界值的测试?
- 云硬盘EVS详解以及如何用与避坑【华为云至简致远】
- NFT盲盒挖矿DAO智能合约dapp系统开发详情
- 使用Typora+EasyBlogImageForTypora写博客,无图床快速上传图片
猜你喜欢
南京一研究所回应招聘硕士保安:负责安全生产等,48人选1
【网络结构】VGG
How to play deep paging with hundreds of millions of data?Compatible with MySQL + ES + MongoDB
方舟生存进化开服需要多少钱
一次做数据报表的踩坑经历,让我领略了数据同步增量和全量的区别
A high-performance creation book, ASUS Dreadnought Pro15 2022 is completely enough for daily photo editing and editing!
Three key expectations for the crypto market in August Price moves north?Still expected to be in turmoil
Taurus.MVC WebAPI 入门开发教程1:框架下载环境配置与运行(含系列目录)。
问题5:发现缺陷怎么办?缺陷的类型有哪些?
Internship Road: Documenting Confusion in My First Internship Project
随机推荐
程序员面试必备PHP基础面试题 – 第十八天
不安装运行时运行.NET程序
DeepLink在转转的实践
取消转义字符(r)
2021年12月电子学会图形化二级编程题解析含答案:绘制多边形
跨桌面端之组件化实践
【FPGA教程案例44】图像案例4——基于FPGA的图像中值滤波verilog实现,通过MATLAB进行辅助验证
如何用二分法搜索、查找旋转数组中是否含有某个(目标)值? leetcode 81.搜索旋转排序数组
PAT乙级-B1010 一元多项式求导(25)
问题8:对朋友圈进行用例设计
高等数学(第七版)同济大学 习题4-1 个人解答
Several methods of installing Mysql in Linux
新版本MaxCompute 的SQL支持 UDF 分区裁剪的逻辑是怎样的?
No inner demons, to dry!SQL optimization and diagnosis
STM32H743VIT6配置ADC为1M采样率
PAT乙级-B1008 数组元素循环右移问题(20)
文件包含之伪协议的使用
新版本的 MaxCompute 中,SQL支持的 LIMIT OFFSET 的语法是什么功能?
R7 6800H+RTX3050+120Hz 2.8K OLED屏,无畏Pro15 2022开启预售
问题7:功能测试花瓶用例