当前位置:网站首页>小度 小度 在呢!

小度 小度 在呢!

2022-08-05 05:18:00 乘云科技

什么是智能语音识别?

简单来说

智能语音识别就是将人类的声音信号

转化为文字的过程。

我们平时接触到的

语音识别、人脸识别、OCR等

都属于人工智能中的感知智能

其核心功能就是

将物理世界的信息转化为可供计算机处理的信息

为后续的认知智能提供基础。

语音识别能够满足的需求层次

01人与人之间的信息同步

转化成文字的语音信息,由于少了时间轴的约束,在同等量级的情况下,人类使用眼睛获取的速度远远快于耳朵。

02检索&语义抽取

利用语义建模,对某些业务场景中比较关注的词/语义进行检索,或者将其抽取出来并进行结构化记录。

03人机交互

使用更自然的方式与机器/虚拟助理进行交互,实现拟人对话、对设备的操控或者问题答案的获取。

04数据挖掘

通过对数据的聚类或者与各维度数据体系打通,可以对个人/人群/特定领域的语义数据进行价值挖掘。

封闭域识别

1定义:

识别范围为预先指定的字/词集合。

算法只在开发者预先设定的封闭域识别词的集合内进行语音识别,对范围之外的语音会拒识。

2.产品形态

流式传输-同步获取。

3.典型应用场景:

不涉及到多轮交互和多种语义说法的场景。

比如,对于简单指令交互的智能家居和电视盒子,语音控制指令一般只有“打开窗帘”、“打开中央台”等。

开放域识别

1.定义

无需预先指定识别词集合,算法将在整个语言大集合范围中进行识别。

2.产品形态

1.流式上传-同步获取

应用/软件会对说话人的语音进行自动录制,并将其连续上传至云端,说话人在说完话的同时能实时地看到返回的文字。

2.已录制音频文件上传-异步获取

音频时长一般<3/5小时。用户需自行调用软件接口或是硬件平台预先录制好规定格式的音频,并使用语音云服务厂商提供的接口进行音频上传,上传完成之后便可以断掉连接。用户通过轮询语音云服务器或者使用回调接口进行结果获取。

3. 已录制音频文件上传-同步获取,音频时长一般小于<1分钟。用户需自行预先录制好规定格式的音频,并使用语音云服务厂商提供的接口进行音频上传。

4.典型应用场景

1.主要在输入场景,如输入法、会议/法院庭审时的实时字幕上屏。

2.已经录制完毕的音/视频字幕配置;实时性要求不高的客服语音质检和UGC语音内容审查场景等。

3.作为前两者的补充,适用于无法用音频录制接口进行实时音频流上传,或者结果获取的实时性要求比较高的场景。

原网站

版权声明
本文为[乘云科技]所创,转载请带上原文链接,感谢
https://blog.csdn.net/m0_69860225/article/details/125204249