当前位置:网站首页>VoxCeleb1 数据集下载
VoxCeleb1 数据集下载
2022-07-25 09:27:00 【Haulyn5】
前言
VoxCeleb1 是广泛使用的 说话人识别、验证 数据集。由于是从 YouTube 视频中提取,有比较丰富的噪声。(有空补介绍)
如果可以使用谷歌表单和翻译软件应该就可以顺利下载,私下分发数据集有侵权风险。
正文
官网如下:
VoxCeleb
https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
但是很神奇的是现在(2022-7-12),这个网站所有的下载链接被取消了。
VoxCeleb
https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
可以看到,只能下载到 Metadata,音频文件暂时不可用。
搜了好久后发现在下面的链接可以下载,一开始担心不是官网,后面发现这是一个韩国的实验室,承接了第四次的 VoxCeleb Speaker Recognition Challenge (VoxSRC)
VoxCeleb
https://mm.kaist.ac.kr/datasets/voxceleb/下载前需要填个 Google Form,填入单位姓名等。由于是自动流程,所以填完不久就可以检查邮箱收件箱了,会看到一个邮件给出了 用户名和口令。
这里有说明,给出的身份只能使用 1 个月。
获得用户名和口令之后就好办了,使用 Windows 和浏览器的可以直接在下面的链接找到对应的数据集下载,因为过大所以官方做了分片,具体的操作官网有详细说明,下载的时候点击链接,会弹出需要填入用户名和口令,输入即可开始下载。VoxCeleb
https://mm.kaist.ac.kr/datasets/voxceleb/
额外补充一下,Linux 环境的下载命令。
wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wav.zip --http-user=username--http-passwd=password将 链接 `http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wavip` 切换为你需要下载的文件,然后 username 和 password 做替换即可。
官网给出了 md5,可以顺手校验一下。
md5sum vox1_dev_wav.zip然后是解压,用 unzip 命令。
unzip -d vox1_dev_wav vox1_dev_wav.zip然后就大工搞成了,数据集的使用可以参照 GitHub 找 voxceleb trainer,此外用 Pytorch 的用户可以参照 torchaudio.datasets.voxceleb1 — Torchaudio nightly documentation。这个 API 比较新,比较古早的版本可能没有。
补充
对于将要使用这个数据集 Train 模型的同学补充说明一下,Identification 任务的训练也是要下载 Test 数据的。
直接用 https://mm.kaist.ac.kr/datasets/voxceleb/meta/iden_split.txt 这个文件读取数据集,会报错,id10270-id10309 的数据是缺失的,但是 iden_split 这个文件却标注了一些 id 在这个范围的说话人的数据为 Training,我本以为只用 Training Data (因为不是做 ASV)所以没有下载 Test……结果就报错了,找不到音频文件。


边栏推荐
- Common methods of JS digital thousand bit segmentation
- Introduction to low power consumption and UPF
- Probabilistic robot learning notes Chapter 2
- CCF 201512-3 drawing
- emmet语法速查 syntax基本语法部分
- VScode配置ROS开发环境:修改代码不生效问题原因及解决方法
- JDBC操作数据库详解
- 基础背包问题
- Introduction to Verdi Foundation
- Detailed explanation of MySQL database
猜你喜欢

Arm preliminaries

数据库MySQL详解
![[machine translation] scones -- machine translation with multi tag tasks](/img/72/d3e46a820796a48b458cd2d0a18f8f.png)
[machine translation] scones -- machine translation with multi tag tasks

Redis使用场景

TM1638 LED数码显示模块ARDUINO驱动代码
![[necessary for growth] Why do I recommend you to write a blog? May you be what you want to be in years to come.](/img/f5/e6739083f0dce8da1d09d078321633.png)
[necessary for growth] Why do I recommend you to write a blog? May you be what you want to be in years to come.

Probability theory and mathematical statistics 4 continuous random variables and probability distributions (Part 1)

小程序企业发放红包功能

静态路由的配置(以华为eNSP为例)

Download and installation of QT 6.2
随机推荐
腾讯云之错误[100007] this env is not enable anonymous login
Armv8 datasheet learning
JDBC总结
Introduction to low power consumption and UPF
Internal structure of SOC chip
[necessary for growth] Why do I recommend you to write a blog? May you be what you want to be in years to come.
Ubuntu20.04系统下安装MySQL数据库5.7.29版本
小程序调起微信支付
Qt 6.2的下载和安装
Wechat applet jumps to other applets
The first week of the fifth stage
[deployment of deep learning model] deploy the deep learning model using tensorflow serving + tornado
UE4 窗口控制(最大化 最小化)
framework打包合并脚本
The way of code neatness -- hit the pain point directly
Configuring ROS development environment with vscode: Causes and solutions to the problem of ineffective code modification
Record of deep learning segment error (segment core/ exit code 139)
File upload function
Common methods of JS digital thousand bit segmentation
[nearly 10000 words dry goods] don't let your resume don't match your talent -- teach you to make the most suitable resume by hand