当前位置:网站首页>2022年6月语音合成(TTS)和语音识别(ASR)论文月报
2022年6月语音合成(TTS)和语音识别(ASR)论文月报
2022-07-06 11:48:00 【我叫永强】
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。
如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
一 语音合成篇
表一给出具体分类说明。2022年6月的语音合成相关的文章有43篇,相比5月份增加一倍详情参见图1,但少于2021年的54篇。表二和图2是语音合成的具体方向文章的情况。本月的文章在声学模型、情感tts、声音转换和多语言多说话人方向较多一些。
表一 语音合成分类说明
分类 | 说明 |
前端 | 多音字,韵律,g2p等等。 |
声学模型 | 语言特征转声学特征,attention工作,多说话人以及双重学习 |
声码器 | 波形生成 |
个性化 | 少数据,脏数据应用等自适应 |
多语言和多说话人 | 多语言模型、多说话人模型 |
歌唱合成 | 歌唱和音乐合成 |
情感 | 风格和情感 |
多模态 | 主要搜集talking head文章 |
声音转换 | 基于GAN方案和特征解耦方案 |
S2S | speech-to-speech |
其它 | 基于EEG合成,开源数据,MOS评测以及语音合成的应用 |
图1 语音合成论文总数
表二 语音合成论文分布情况
1月 | 2月 | 3月 | 4月 | 5月 | 6月 | |
前端 | 2 | 0 | 3 | 0 | 0 | 2 |
声学模型 | 4 | 5 | 17 | 8 | 2 | 7 |
声码器 | 1 | 5 | 7 | 5 | 3 | 4 |
个性化 | 1 | 2 | 4 | 3 | 3 | 1 |
多语言 | 1 | 1 | 0 | 3 | 0 | 5 |
歌唱合成 | 5 | 3 | 5 | 2 | 2 | 3 |
情感风格 | 2 | 2 | 1 | 3 | 2 | 6 |
多模态 | 4 | 3 | 2 | 5 | 3 | 3 |
声音转换 | 4 | 2 | 11 | 3 | 2 | 6 |
s2s | 1 | 0 | 2 | 1 | 2 | 0 |
其它 | 2 | 0 | 4 | 12 | 3 | 6 |
图2 语音合成论文分布情况柱状图
语音合成的文章列表请访问http://yqli.tech/page/tts_paper.html
2022.06月份的文章
二 语音识别篇
语音识别的文章分类参照表三说明,方向speech translation和multimodal在前几个月没有统计,因此先不放进图表中。图3是语音识别文章总数,本月有55篇。语音识别的研究方向具体情况参见表4和图4,很明显,无监督学习依然是最热门的方向。另外,好未来开源了一些数据,尤其本次开源500小时中英混合数据,参见https://ai.100tal.com/dataset。开源数据总结可访问http://yqli.tech/page/data.html。
表三 语音识别分类说明
分类 | 说明 |
general | 包括传统、混合语音识别,以及对asr的优化 |
ctc | ctc优化 |
rnn-t | rnn-t的优化 |
aed | aed优化 |
dataset | 开源数据库 |
data aug | 数据增广 |
lm | 语言模型研究 |
multilingual | 多语音系统以及code-switch |
personal | 少数据量自适应以及个性化ASR |
rescoring | 多种模型联合打分 |
unsupervised | 无监督或者自监督学习 |
accent ,dialect | 口音和方言 |
other | 其它方向研究,包括系统评价标准等等 |
robust | 鲁棒性 |
speaker diarization | speaker diarization |
multichannel | 多通道 |
speech translation | 语音翻译 |
multi-modal | 多模态 |
图3 语音识别文章数量统计(单位:篇)
表4 语音识别研究方向分布情况
1月 | 2月 | 3月 | 4月 | 5月 | 6月 | |
general | 12 | 10 | 13 | 9 | 6 | 7 |
ctc | 1 | 0 | 2 | 5 | 1 | 1 |
rnn-t | 3 | 1 | 2 | 3 | 0 | 2 |
aed | 1 | 1 | 1 | 1 | 0 | 1 |
dataset | 3 | 0 | 3 | 2 | 1 | 4 |
data augmentation | 1 | 1 | 1 | 2 | 2 | 0 |
lm | 2 | 2 | 4 | 3 | 0 | 3 |
multilingual | 2 | 1 | 2 | 1 | 2 | 2 |
personal | adaptation | 0 | 7 | 3 | 1 | 2 | 2 |
rescoring | 1 | 1 | 2 | 0 | 0 | 2 |
unsupervised | 2 | 3 | 17 | 19 | 7 | 9 |
accent | 1 | 0 | 0 | 2 | 2 | 0 |
multichannel | 0 | 4 | 1 | 1 | 0 | 0 |
robust | 0 | 0 | 5 | 2 | 2 | 1 |
other | 6 | 13 | 22 | 13 | 9 | 10 |
speaker diarization | 0 | 3 | 4 | 5 | 2 | 2 |
speech translation | - | - | - | - | 6 | 4 |
multimodal | - | - | - | - | 3 | 5 |
图4 语音识别研究方向柱状图
语音识别的文章列表请访问http://yqli.tech/page/asr_paper.html
2022.06月份语音识别具体文章
边栏推荐
- 手把手教你学会js的原型与原型链,猴子都能看懂的教程
- LeetCode_ Double pointer_ Medium_ 61. rotating linked list
- In simple terms, interview surprise Edition
- How to do smoke test
- Alibaba data source Druid visual monitoring configuration
- 冒烟测试怎么做
- Configuration and simple usage of the EXE backdoor generation tool quasar
- 部门树递归实现
- js实现力扣71题简化路径
- USB host driver - UVC swap
猜你喜欢
Systematic and detailed explanation of redis operation hash type data (with source code analysis and test results)
Li Kou 101: symmetric binary tree
《数字经济全景白皮书》保险数字化篇 重磅发布
学习探索-无缝轮播图
It's enough to read this article to analyze the principle in depth
Swiftui game source code Encyclopedia of Snake game based on geometryreader and preference
社招面试心得,2022最新Android高频精选面试题分享
潇洒郎: AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipe
Low CPU load and high loadavg processing method
如何自定义动漫头像?这6个免费精品在线卡通头像生成器,看一眼就怦然心动!
随机推荐
Yyds dry goods inventory leetcode question set 751 - 760
Translation D28 (with AC code POJ 26:the nearest number)
redisson bug分析
Learning and Exploration - Seamless rotation map
Recursive implementation of department tree
力扣101题:对称二叉树
DOM operation
Phoenix Architecture 2 - accessing remote services
swagger2报错Illegal DefaultValue null for parameter type integer
350. 两个数组的交集 II
Spark foundation -scala
[translation] Digital insider. Selection process of kubecon + cloudnativecon in Europe in 2022
学习探索-函数防抖
A popular explanation will help you get started
CPU负载很低,loadavg很高处理方法
CF960G - Bandit Blues(第一类斯特林数+OGF)
About image reading and processing, etc
The "white paper on the panorama of the digital economy" has been released with great emphasis on the digitalization of insurance
In simple terms, interview surprise Edition
凤凰架构3——事务处理