当前位置:网站首页>语音合成模型小抄(1)
语音合成模型小抄(1)
2022-08-02 22:43:00 【Andy Dennis】
前言
语音也是一个日渐热门的行业啊。给定一段文本, 我们想让它被阅读出来.就需要使用到语音合成技术,也就是Text-to-Speech, 简称TTS。这里记录一下我看到的一些有意思的模型。
one-stage语音合成一般称为端到端 end-to-end
Two-stage语音合成步骤的, 通常stage1:
文本 -(FFT)-> 语谱图 -(滤波)-> 梅尔谱/线性谱
stage 2: 将梅尔谱/线性谱 生成 波形(音频)
论文
VITS
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
ICML 2021
论文: https://arxiv.org/abs/2106.06103
代码: https://github.com/jaywalnut310/vits

condition VAE + flow + GAN
flow可以看看v-flow和flow++这两篇文章。
知乎上看到两个论文笔记:
详细点的 细读经典:VITS,用于语音合成带有对抗学习的条件变分自编码器
简短的【论文笔记】VITS_OlaWod
边栏推荐
猜你喜欢
随机推荐
Pytest配置项-pytest.ini
Jmeter secondary development to realize rsa encryption
图像识别从零写出dnf脚本关键要点
centos7安装mysql5.7步骤(图解版)
In-depth study TypeScript TypeScript 】 【 class (under)
技术分享 | 接口自动化测试中如何对xml 格式做断言验证?
别再用Field注入了
R语言自学 1 - 向量
函数:计算组合数
Ruoyi integrates minio to realize distributed file storage
1 - vector R language self-study
VMware workstation program starts slowly
Matplotlib drawing core principles explain (more detailed)
学习基因富集工具DAVID(2)
漫画:怎么证明sleep不释放锁,而wait释放锁?
Mysql查看慢查询日志
Word operation: adjust the English font individually
辅助脚本开发之旅
Based on two levels of decomposition and the length of the memory network multi-step combined forecasting model of short-term wind speed
学习Autodock分子对接









