当前位置:网站首页>语音合成模型小抄(1)
语音合成模型小抄(1)
2022-08-02 22:43:00 【Andy Dennis】
前言
语音也是一个日渐热门的行业啊。给定一段文本, 我们想让它被阅读出来.就需要使用到语音合成技术,也就是Text-to-Speech, 简称TTS。这里记录一下我看到的一些有意思的模型。
one-stage语音合成一般称为端到端 end-to-end
Two-stage语音合成步骤的, 通常stage1:
文本 -(FFT)-> 语谱图 -(滤波)-> 梅尔谱/线性谱
stage 2: 将梅尔谱/线性谱 生成 波形(音频)
论文
VITS
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
ICML 2021
论文: https://arxiv.org/abs/2106.06103
代码: https://github.com/jaywalnut310/vits

condition VAE + flow + GAN
flow可以看看v-flow和flow++这两篇文章。
知乎上看到两个论文笔记:
详细点的 细读经典:VITS,用于语音合成带有对抗学习的条件变分自编码器
简短的【论文笔记】VITS_OlaWod
边栏推荐
- C语言函数详解(2)【函数参数——实际参数(实参)&形式参数(形参)】
- 微信小程序(一)
- Directing a non-relational database introduction and deployment
- 刚安装完win10专业工作站版,系统变量中Path默认值有哪些?重新建一个“PATH”变量名,会覆盖掉原先的“Path”。
- 【Unity】Unity开发进阶(六)UnityEvent使用与源码解析
- 创建型模式 - 简单工厂模式StaticFactoryMethod
- 【斯坦福计网CS144项目】Lab5: NetworkInterface
- CentOS7 安装MySQL 图文详细教程
- 学习基因富集工具DAVID(3)
- mPEG-Cholesterol,mPEG-CLS,甲氧基-聚乙二醇-胆固醇可用于脂质体制备
猜你喜欢
刚安装完win10专业工作站版,系统变量中Path默认值有哪些?重新建一个“PATH”变量名,会覆盖掉原先的“Path”。
在软件测试行业近20年的我,再来和大家谈谈今日的软件测试
Cholesterol-PEG-Amine,CLS-PEG-NH2,胆固醇-聚乙二醇-氨基脂两亲性脂质衍生物
In-depth study TypeScript TypeScript 】 【 class (under)
如何通过 IDEA 数据库管理工具连接 TDengine?
测试人生 | 阿里实习 90 天:从实习生的视角谈谈个人成长
IDEA 重复代码的黄色波浪线取消设置
CAS:474922-22-0,DSPE-PEG-MAL,磷脂-聚乙二醇-马来酰亚胺科研试剂供应
CodeTON Round 2 A - D
技术分享 | 接口自动化测试中如何对xml 格式做断言验证?
随机推荐
B站回应HR称用户是Loser:涉事面试官去年底已被劝退
VMware workstation 程序启动慢
HCIP(17)
虚拟内存 virualmemory
IDO预售代币合约系统开发技术说明及源码分析
CTF命令执行题目解题思路
学习基因富集工具DAVID(3)
MDL 内存描述符链表
Week 7 - Distributional Representations(分布表示)
If the watermark according to how to realize the function
HCIP(16)
第十章 时序与延迟
微信小程序(一)
Shunted Self-Attention via Multi-Scale Token Aggregation
C语言函数详解(2)【函数参数——实际参数(实参)&形式参数(形参)】
resubmit 渐进式防重复提交框架简介
程序员如何优雅地解决线上问题?
[论文总结] 深度学习在农业领域应用论文笔记10
记一次mysql查询慢的优化历程
雷克萨斯lm的安全性如何?