当前位置:网站首页>语音合成模型小抄(1)
语音合成模型小抄(1)
2022-08-02 22:43:00 【Andy Dennis】
前言
语音也是一个日渐热门的行业啊。给定一段文本, 我们想让它被阅读出来.就需要使用到语音合成技术,也就是Text-to-Speech, 简称TTS。这里记录一下我看到的一些有意思的模型。
one-stage语音合成一般称为端到端 end-to-end
Two-stage语音合成步骤的, 通常stage1:
文本 -(FFT)-> 语谱图 -(滤波)-> 梅尔谱/线性谱
stage 2: 将梅尔谱/线性谱 生成 波形(音频)
论文
VITS
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
ICML 2021
论文: https://arxiv.org/abs/2106.06103
代码: https://github.com/jaywalnut310/vits
condition VAE + flow + GAN
flow可以看看v-flow和flow++这两篇文章。
知乎上看到两个论文笔记:
详细点的 细读经典:VITS,用于语音合成带有对抗学习的条件变分自编码器
简短的【论文笔记】VITS_OlaWod
边栏推荐
猜你喜欢
随机推荐
严格反馈非线性系统基于事件触发的自抗扰预设有限时间跟踪控制
基于奇异谱分析法和长短时记忆网络组合模型的滑坡位移预测
MySql查询某个时间段内的数据(前一周、前三个月、前一年等)
同一份数据,Redis为什么要存两次?
CodeTON Round 2 A - D
买母婴产品先来京东“券民空间站”抢券!大牌好物低至5折
创建型模式 - 单例模式Singleton
No-code development platform form styling steps introductory course
程序员如何优雅地解决线上问题?
了解 NFT 质押:Web3 中赚取被动收益的另一种方式
第十章 时序与延迟
「X」to「Earn」:赛道现状与破局思路
mPEG-Cholesterol,mPEG-CLS,甲氧基-聚乙二醇-胆固醇可用于脂质体制备
gdb调试简要总结
Token、Redis实现单点登录
RuoYi-App Startup Tutorial
基于STM32设计的老人防摔倒报警设备(OneNet)
TCP三次握手与四次挥手
MDL 内存描述符链表
测试人生 | 阿里实习 90 天:从实习生的视角谈谈个人成长