当前位置:网站首页>语音增强-频谱映射
语音增强-频谱映射
2022-06-28 06:20:00 【Salute=】
目录
一、引言
语音增强的主要目标是从含噪语音信号中提取纯净语音信号,在自动语音识别、助听器中有着 广泛的应用。深度语音增强方法可分为两大类:1) 基于映射的语音增强方法; 2) 基于掩模的语音增强方法。
二、基于映射的语音增强方法
基于映射的语音增强方法按不同的域(时域/频域)处理,可分为两大类:
1) 基于频谱映射的语音增强方法:通过神经网络学习含噪语音信号频谱到干净语音信号频谱之间的映射关系。
2) 端到端语音增强方法:通过神经网络学习含噪语音信号时域波形到干净语音信号时域波形之间的映射关系。
2.1 频谱映射系统模型
频谱映射系统模型如下图所示,
语音特征提取和时域重构具体流程如下所示,
训练阶段:
1) 输入:本文实验采用的输入特征为带噪语音信号对数幅度谱。值得注意的是,参照文献[1]采用扩帧技术,如输入5帧对数幅度谱数据时,网络输出为预测的第3帧对数幅度谱数据,如下图所示。
2) 标签:为干净语音信号的对数幅度谱,如当输入5帧对数幅度谱数据时,输出为预测的第3帧对数幅度谱数据。
3) 损失函数:MSE损失函数, L Loss = ∥ L ^ − L ∥ 2 2 L_{\text {Loss }}=\|\hat{\mathbf{L}}-\mathbf{L}\|_{2}^{2} LLoss =∥L^−L∥22
备注:对输入的对数幅度谱进行归一化可加速网络的收敛,且本文实验采用BN层对输入特征进行归一化。
三、实验分析
3.1 实验数据集及参数设置
训练所用干净语音信号:TIMIT-TRAIN中DR1所有干净语音信号;测试所用干净语音信号:TIMIT-TEST中DR1前10条干净语音信号;合成含噪语音信号信噪比(dB):[-5, 0, 5, 10];合成含噪语音信号所用噪声来源:NoiseX-92中的3种噪声 [‘babble’, ‘destroyerengine’, ‘factory1’] 。
参数设置:短时傅里叶变换长度:N_fft = 512, 窗长:win_length=512, 窗移:hop_length=128 , 窗函数:‘hamming’;训练相关参数epoch=30, lr=1e-4, batch_size=16。
3.1 实验结果
3.1.1 扩帧参数(n_expand=3)
帧扩张参数 n _ e x p a n d = 3 n\_expand=3 n_expand=3,也即输入网络的帧数为 2 ∗ n _ e x p a n d + 1 = 7 2*n\_expand+1=7 2∗n_expand+1=7, n _ e x p a n d = 3 n\_expand=3 n_expand=3时的PESQ评分和STOI值如下所示。


3.1.2 不同扩帧参数(n_expand=1, 3, 5, 7)
讨论帧扩张参数对频谱映射语音增强性能的影响:
(1) n_expand=1, 3, 5, 7时,各个snr下的PESQ值和STOI值,如下图所示。




【结论:在当前实验条件下,n_expand=3的语音增强性能最佳。】
四、参考文献
[1]An Experimental Study on Speech Enhancement Based on Deep Neural Networks
[2]蓝天,彭川,李森,钱宇欣,陈聪,刘峤.基于RefineNet的端到端语音增强方法[J].自动化学报,2022,48(02):554-563.
[3]基于深度学习的单通道语音增强
[4]鲁东大学于泓老师语音增强课程
[5]参考代码
边栏推荐
- YYGH-BUG-03
- MySQL common functions
- Pre training model parameter mismatch
- CAD secondary development +nettopologysuite+pgis reference multi version DLL
- @Autowired注解为空的原因
- Is it safe to open a stock account? How to open a stock account?
- Apple MDM bypass jailfree bypass MDM configuration lock free
- windows上安装redis并永久修改密码,及ssm框架集成redis
- Linked list (II) - Design linked list
- PKG package node project (express)
猜你喜欢
随机推荐
整型提升和大小端字节序
【Paper Reading-3D Detection】Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images
19 fonctions de perte d'apprentissage profond
Introduction to browser tools: think sky browser, team work browser
ROS rviz_ Satellite function package visualizes GNSS track and uses satellite map
FPGA - 7系列 FPGA SelectIO -09- 高级逻辑资源之IO_FIFO
Configure redis from 0
Alert pop-up processing in Web Automation
Simple handwritten debounce function
AutoCAD C# 多段线自相交检测
Deleting MySQL under Linux
cocoapod中的第三方库怎么引用本地头文件
Lombok @equalsandhashcode annotation how to make objects The equals () method compares only some attributes
What is the e-commerce conversion rate so abstract?
从0配置redis
At first glance, I can see several methods used by motionlayout
YYGH-BUG-02
Xcode13.3.1 error reported after pod install
Development trend of mobile advertising: Leveraging stock and fine marketing
API learning of OpenGL (2007) gltexcoordpointer

![Taobao seo training video course [22 lectures]](/img/81/21e844542b35010760d061abe905e9.jpg)







