当前位置：网站首页>语音合成模型小抄(1)

语音合成模型小抄(1)

2022-08-02 22:43:00 【Andy Dennis】

前言

语音也是一个日渐热门的行业啊。给定一段文本，我们想让它被阅读出来.就需要使用到语音合成技术，也就是Text-to-Speech, 简称TTS。这里记录一下我看到的一些有意思的模型。

one-stage语音合成一般称为端到端 end-to-end
Two-stage语音合成步骤的，通常stage1:
文本 -(FFT)-> 语谱图 -(滤波)-> 梅尔谱/线性谱
stage 2: 将梅尔谱/线性谱生成波形(音频)

论文

VITS

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
ICML 2021
论文: https://arxiv.org/abs/2106.06103
代码: https://github.com/jaywalnut310/vits

condition VAE + flow + GAN
flow可以看看v-flow和flow++这两篇文章。

知乎上看到两个论文笔记:
详细点的细读经典：VITS，用于语音合成带有对抗学习的条件变分自编码器
简短的【论文笔记】VITS_OlaWod

版权声明
本文为[Andy Dennis]所创，转载请带上原文链接，感谢
https://blog.csdn.net/weixin_43850253/article/details/126085711

边栏推荐

猜你喜欢

随机推荐