当前位置:网站首页>小度 小度 在呢!
小度 小度 在呢!
2022-08-05 05:18:00 【乘云科技】
什么是智能语音识别?
简单来说
智能语音识别就是将人类的声音信号
转化为文字的过程。
我们平时接触到的
语音识别、人脸识别、OCR等
都属于人工智能中的感知智能
其核心功能就是
将物理世界的信息转化为可供计算机处理的信息
为后续的认知智能提供基础。
语音识别能够满足的需求层次
01人与人之间的信息同步
转化成文字的语音信息,由于少了时间轴的约束,在同等量级的情况下,人类使用眼睛获取的速度远远快于耳朵。
02检索&语义抽取
利用语义建模,对某些业务场景中比较关注的词/语义进行检索,或者将其抽取出来并进行结构化记录。
03人机交互
使用更自然的方式与机器/虚拟助理进行交互,实现拟人对话、对设备的操控或者问题答案的获取。
04数据挖掘
通过对数据的聚类或者与各维度数据体系打通,可以对个人/人群/特定领域的语义数据进行价值挖掘。
封闭域识别
1定义:
识别范围为预先指定的字/词集合。
算法只在开发者预先设定的封闭域识别词的集合内进行语音识别,对范围之外的语音会拒识。
2.产品形态 :
流式传输-同步获取。
3.典型应用场景:
不涉及到多轮交互和多种语义说法的场景。
比如,对于简单指令交互的智能家居和电视盒子,语音控制指令一般只有“打开窗帘”、“打开中央台”等。
开放域识别
1.定义
无需预先指定识别词集合,算法将在整个语言大集合范围中进行识别。
2.产品形态
1.流式上传-同步获取
应用/软件会对说话人的语音进行自动录制,并将其连续上传至云端,说话人在说完话的同时能实时地看到返回的文字。
2.已录制音频文件上传-异步获取
音频时长一般<3/5小时。用户需自行调用软件接口或是硬件平台预先录制好规定格式的音频,并使用语音云服务厂商提供的接口进行音频上传,上传完成之后便可以断掉连接。用户通过轮询语音云服务器或者使用回调接口进行结果获取。
3. 已录制音频文件上传-同步获取,音频时长一般小于<1分钟。用户需自行预先录制好规定格式的音频,并使用语音云服务厂商提供的接口进行音频上传。
4.典型应用场景
1.主要在输入场景,如输入法、会议/法院庭审时的实时字幕上屏。
2.已经录制完毕的音/视频字幕配置;实时性要求不高的客服语音质检和UGC语音内容审查场景等。
3.作为前两者的补充,适用于无法用音频录制接口进行实时音频流上传,或者结果获取的实时性要求比较高的场景。
边栏推荐
猜你喜欢
随机推荐
【Promise高级用法】实现并行和串行API
常见的 PoE 错误和解决方案
Cocos Creator小游戏案例《棍子士兵》
【UiPath2022+C#】UiPath 数据操作
论那些给得出高薪的游戏公司底气到底在哪里?
链表章6道easy总结(leetcode)
偷题——腾讯游戏开发面试问题及解答
UE4美术你有必要了解的数学基础
LeetCode刷题之第530题
2020年手机上最好的25种免费游戏
乘云科技受邀出席2022阿里云合作伙伴大会荣获“聚力行远奖”
Lua,ILRuntime, HybridCLR(wolong)/huatuo热更对比分析
PID详解
每日一题-盛最多水的容器-0716
UE4动画雨滴材质制作教程
硬核!Cocos开发面试必备十问,让你offer拿到手软
阿里云视频点播
LeetCode刷题之第24题
「实用」运维新手一定不能错过的17 个技巧
D41_缓冲池