当前位置:网站首页>关于VCTK数据集
关于VCTK数据集
2022-07-01 00:37:00 【Wsyoneself】
- 下载vctk数据集(下载路径:https://datashare.ed.ac.uk/download/DS_10283_3443.zip)
- vctk数据集理解:
- CSTR VCTK语料库包括110名英语使用者使用不同口音发出的语音数据。每个演讲者朗读大约400个句子,这些句子选自一份报纸、rainbow文章和一段用于语音重音档案的启发段落。
- 文本是根据贪婪算法选择的,贪婪算法可以增加上下文和语音覆盖率。
- 所有语音数据均使用相同的录音设置进行录音:一个全向麦克风(DPA 4035)和一个小振膜电容麦克风,带宽非常宽(Sennheiser MKH 800),采样频率为96kHz,24位,位于爱丁堡大学的半消声室中。
- 所有记录均转换为16位,降采样至48 kHz
- 该语料库最初用于基于HMM的文本到语音合成系统,尤其是基于说话人自适应HMM的语音合成,该合成使用多个说话人的平均语音模型和说话人自适应技术。该语料库也适用于基于DNN的多说话人文语合成系统和波形建模。**这里的思想和PCA提取人脸特征加上平均人脸来合成指定人脸的思想类似**
- VCTK语料库有几种变体:
- 语音增强:用于训练语音增强算法和TTS模型的噪声语音数据库,音频被人为地向VCTK添加了各种类型的噪声:http://dx.doi.org/10.7488/ds/2117
- 混响语音数据库,用于训练语音去混响算法和TTS模型,VCTK中人为添加了各种类型的混响http://dx.doi.org/10.7488/ds/1425
- 用于训练语音增强算法和TTS模型的噪声混响语音数据库http://dx.doi.org/10.7488/ds/2139
- 设备记录VCTK,其中VCTK语料库的语音信号被回放,并使用相对便宜的消费设备在办公环境中重新记录http://dx.doi.org/10.7488/ds/2316
- Microsoft可伸缩噪声语音数据集(MS-SNSD)https://github.com/microsoft/MS-SNSD
- ASV和反欺骗:
- 欺骗和反欺骗(SAS)语料库,是由九种技术产生的合成语音信号的集合,其中两种是语音合成,七种是语音转换。所有这些都是使用VCTK语料库构建的。http://dx.doi.org/10.7488/ds/252
- 自动说话人验证欺骗和对策挑战(ASVspoof 2015)数据库。该数据库由十种技术产生的合成语音信号组成,已用于第一次自动说话人验证欺骗和对抗挑战(ASVspoof 2015)http://dx.doi.org/10.7488/ds/298
- ASVspoof 2019:第三个自动说话人验证欺骗和对策挑战数据库。该数据库已用于第三次自动说话人验证欺骗和对策挑战(ASVspoof 2019)https://doi.org/10.7488/ds/2555
- 使用语料库需要增加的引用:
Christophe Veaux, Junichi Yamagishi, Kirsten MacDonald, "CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit", The Centre for Speech Technology Research (CSTR), University of Edinbur
边栏推荐
- Teach you how to use Hal library to get started -- become a lighting master
- 获取屏幕高度
- Vnctf 2022 cm CM1 re reproduction
- MySQL storage engine
- CSDN common complex formula template record
- Usage of C set
- Hoo research | coinwave production - nym: building the next generation privacy infrastructure
- Basic knowledge of Embedded Network - introduction of mqtt
- The girlfriend said: if you want to understand the three MySQL logs, I will let you heiheihei!
- HDU 2488 A Knight's Journey(DFS)
猜你喜欢

How to do the performance pressure test of "Health Code"

Oracle临时表详解

Vnctf 2022 cm CM1 re reproduction

Vnctf 2022 cm CM1 re reproduction

给按钮的边框和文字设置不同的背景色

Two-stage RO: part 1

Authentication principle of Ranger plug-in

Oracle table creation and management

Multi graph explanation of resource preemption in yarn capacity scheduling

2022-2028 global public address fire alarm system industry research and trend analysis report
随机推荐
双链表:初始化 插入 删除 遍历
20220215-ctf-misc-buuctf-einstein-binwalk analyze picture-dd command separate zip file -- look for password in picture attribute
Ranger plug-in development (Part 2)
CMU15445 (Fall 2019) 之 Project#1 - Buffer Pool 详解
Some views on libco
JS bubble sort and select sort
Share your own terminal DIY display banner
【2023联发科提前批笔试题】~ 题目及参考答案
魔王冷饭||#101 魔王解惑数量多与质量;员工管理;高考志愿填报;游戏架构设计
How to do the performance pressure test of "Health Code"
None of the following candidates is applicable because of a receiver type mismatch
【日常记录】——对BigDecimal除法运算时遇到的Bug
A letter to 5000 fans!
Oracle temporary table explanation
[DaVinci developer topic] -37- detail IRV: introduction to inter runnable variable + configuration
Error msb8031: building an MFC project for a non Unicode character set is deprecated
Two-stage RO: part 1
2022-2028 global public address fire alarm system industry research and trend analysis report
Oracle-表的创建与管理
女朋友说:你要搞懂了MySQL三大日志,我就让你嘿嘿嘿!