当前位置:网站首页>2022年6月语音合成(TTS)和语音识别(ASR)论文月报
2022年6月语音合成(TTS)和语音识别(ASR)论文月报
2022-07-06 11:48:00 【我叫永强】

论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。
如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
一 语音合成篇
表一给出具体分类说明。2022年6月的语音合成相关的文章有43篇,相比5月份增加一倍详情参见图1,但少于2021年的54篇。表二和图2是语音合成的具体方向文章的情况。本月的文章在声学模型、情感tts、声音转换和多语言多说话人方向较多一些。
表一 语音合成分类说明
分类 | 说明 |
前端 | 多音字,韵律,g2p等等。 |
声学模型 | 语言特征转声学特征,attention工作,多说话人以及双重学习 |
声码器 | 波形生成 |
个性化 | 少数据,脏数据应用等自适应 |
多语言和多说话人 | 多语言模型、多说话人模型 |
歌唱合成 | 歌唱和音乐合成 |
情感 | 风格和情感 |
多模态 | 主要搜集talking head文章 |
声音转换 | 基于GAN方案和特征解耦方案 |
S2S | speech-to-speech |
其它 | 基于EEG合成,开源数据,MOS评测以及语音合成的应用 |
图1 语音合成论文总数

表二 语音合成论文分布情况
| 1月 | 2月 | 3月 | 4月 | 5月 | 6月 | |
| 前端 | 2 | 0 | 3 | 0 | 0 | 2 |
| 声学模型 | 4 | 5 | 17 | 8 | 2 | 7 |
| 声码器 | 1 | 5 | 7 | 5 | 3 | 4 |
| 个性化 | 1 | 2 | 4 | 3 | 3 | 1 |
| 多语言 | 1 | 1 | 0 | 3 | 0 | 5 |
| 歌唱合成 | 5 | 3 | 5 | 2 | 2 | 3 |
| 情感风格 | 2 | 2 | 1 | 3 | 2 | 6 |
| 多模态 | 4 | 3 | 2 | 5 | 3 | 3 |
| 声音转换 | 4 | 2 | 11 | 3 | 2 | 6 |
| s2s | 1 | 0 | 2 | 1 | 2 | 0 |
| 其它 | 2 | 0 | 4 | 12 | 3 | 6 |
图2 语音合成论文分布情况柱状图

语音合成的文章列表请访问http://yqli.tech/page/tts_paper.html

2022.06月份的文章

二 语音识别篇
语音识别的文章分类参照表三说明,方向speech translation和multimodal在前几个月没有统计,因此先不放进图表中。图3是语音识别文章总数,本月有55篇。语音识别的研究方向具体情况参见表4和图4,很明显,无监督学习依然是最热门的方向。另外,好未来开源了一些数据,尤其本次开源500小时中英混合数据,参见https://ai.100tal.com/dataset。开源数据总结可访问http://yqli.tech/page/data.html。
表三 语音识别分类说明
分类 | 说明 |
general | 包括传统、混合语音识别,以及对asr的优化 |
ctc | ctc优化 |
rnn-t | rnn-t的优化 |
aed | aed优化 |
dataset | 开源数据库 |
data aug | 数据增广 |
lm | 语言模型研究 |
multilingual | 多语音系统以及code-switch |
personal | 少数据量自适应以及个性化ASR |
rescoring | 多种模型联合打分 |
unsupervised | 无监督或者自监督学习 |
accent ,dialect | 口音和方言 |
other | 其它方向研究,包括系统评价标准等等 |
| robust | 鲁棒性 |
| speaker diarization | speaker diarization |
multichannel | 多通道 |
| speech translation | 语音翻译 |
| multi-modal | 多模态 |
图3 语音识别文章数量统计(单位:篇)

表4 语音识别研究方向分布情况
| 1月 | 2月 | 3月 | 4月 | 5月 | 6月 | |
| general | 12 | 10 | 13 | 9 | 6 | 7 |
| ctc | 1 | 0 | 2 | 5 | 1 | 1 |
| rnn-t | 3 | 1 | 2 | 3 | 0 | 2 |
| aed | 1 | 1 | 1 | 1 | 0 | 1 |
| dataset | 3 | 0 | 3 | 2 | 1 | 4 |
| data augmentation | 1 | 1 | 1 | 2 | 2 | 0 |
| lm | 2 | 2 | 4 | 3 | 0 | 3 |
| multilingual | 2 | 1 | 2 | 1 | 2 | 2 |
| personal | adaptation | 0 | 7 | 3 | 1 | 2 | 2 |
| rescoring | 1 | 1 | 2 | 0 | 0 | 2 |
| unsupervised | 2 | 3 | 17 | 19 | 7 | 9 |
| accent | 1 | 0 | 0 | 2 | 2 | 0 |
| multichannel | 0 | 4 | 1 | 1 | 0 | 0 |
| robust | 0 | 0 | 5 | 2 | 2 | 1 |
| other | 6 | 13 | 22 | 13 | 9 | 10 |
| speaker diarization | 0 | 3 | 4 | 5 | 2 | 2 |
| speech translation | - | - | - | - | 6 | 4 |
| multimodal | - | - | - | - | 3 | 5 |
图4 语音识别研究方向柱状图

语音识别的文章列表请访问http://yqli.tech/page/asr_paper.html

2022.06月份语音识别具体文章

边栏推荐
- 深入分析,Android面试真题解析火爆全网
- Phoenix Architecture 3 - transaction processing
- How can my Haskell program or library find its version number- How can my Haskell program or library find its version number?
- Using clip path to draw irregular graphics
- POJ1149 PIGS 【最大流量】
- 测试用里hi
- Yyds dry goods inventory leetcode question set 751 - 760
- 【计算情与思】扫地僧、打字员、信息恐慌与奥本海默
- MySQL must know and learn
- 《数字经济全景白皮书》保险数字化篇 重磅发布
猜你喜欢

社招面试心得,2022最新Android高频精选面试题分享

冒烟测试怎么做

Mysql Information Schema 学习(一)--通用表

Information System Project Manager - Chapter VIII project quality management

Learn to explore - use pseudo elements to clear the high collapse caused by floating elements
时钟轮在 RPC 中的应用

How to access localhost:8000 by mobile phone

Interview assault 63: how to remove duplication in MySQL?

VMware virtual machine cannot open the kernel device "\.\global\vmx86"

力扣101题:对称二叉树
随机推荐
POJ1149 PIGS 【最大流量】
spark基础-scala
LeetCode_双指针_中等_61. 旋转链表
1805. Number of different integers in the string
腾讯T3大牛手把手教你,大厂内部资料
LeetCode_ Double pointer_ Medium_ 61. rotating linked list
Pay attention to the partners on the recruitment website of fishing! The monitoring system may have set you as "high risk of leaving"
MySQL information schema learning (I) -- general table
Social recruitment interview experience, 2022 latest Android high-frequency selected interview questions sharing
潇洒郎: AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipe
如何自定义动漫头像?这6个免费精品在线卡通头像生成器,看一眼就怦然心动!
Selenium advanced operations
A popular explanation will help you get started
The slave i/o thread stops because master and slave have equal MySQL serv
swagger2报错Illegal DefaultValue null for parameter type integer
Live broadcast today | the 2022 Hongji ecological partnership conference of "Renji collaboration has come" is ready to go
Phoenix Architecture 2 - accessing remote services
深入分析,Android面试真题解析火爆全网
Learning and Exploration - function anti shake
1805. 字符串中不同整数的数目