当前位置:网站首页>语音识别(ASR)论文优选:全球最大的中英混合开源数据TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech

语音识别(ASR)论文优选:全球最大的中英混合开源数据TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech

2022-07-06 11:48:00 我叫永强

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech Recognition Baseline

本文是好未来在2022.06.27更新的文章,主要开源最大的中英混合训练语料,为语音识别的Code-switching方向研究做贡献。


(开源数据统计可参见http://yqli.tech/page/data.html)

由于本文主要工作是开源全球最大的中英混合数据,我们就不再介绍背景,直接查看数据集的情况​。该数据集为好未来英语课授课音频,包含中英文混合讲话的情况,每条音频只有一位说话人,该数据集有100多说话人。(文件63.36G)该数据包含了如图1所示的句内和句间混合的样例。该数据中的中文汉字和英文单词之间的比例为13:1,其中top 20如图​2所示。table 1展示了语库的训练集合测试集的划分情况,table 2展示使用该数据集在espnet和wenet上的实验结果。

数据规模587小时音频
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人200+
录制时间2019年
数据格式音频:.wav;标注结果:.txt
音频长度1~60s
数据类型英语课教师授课音频

原网站

版权声明
本文为[我叫永强]所创,转载请带上原文链接,感谢
https://blog.csdn.net/liyongqiang2420/article/details/125616409