当前位置:网站首页>ICML2022 | 从零开始重新审视端到端的语音到文本翻译

ICML2022 | 从零开始重新审视端到端的语音到文本翻译

2022-06-10 21:43:00 智源社区

论文链接:https://arxiv.org/pdf/2206.04571.pdf

端到端 (E2E) 语音到文本翻译 (ST) 通常依赖于使用源转录本通过语音识别或文本翻译任务对其编码器和/或解码器进行预训练,否则翻译性能会大幅下降。然而,成绩单并不总是可用的,而且文献中很少研究这种预训练对于 E2E ST 的重要性。在本文中,我们重新审视了这个问题,并探讨了仅在语音翻译对上训练的 E2E ST 的质量可以在多大程度上得到提高。我们重新审视了之前证明对 ST 有益的几种技术,并提供了一组最佳实践,使基于Transformer 的 E2E-ST系统偏向于从头开始训练。此外,我们提出了参数化距离惩罚,以促进语音自注意力模型中的局部性建模。在涵盖 23 种语言的四个基准测试中,我们的实验表明,在不使用任何转录本或预训练的情况下,所提出的系统达到甚至优于以前采用预训练的研究,尽管差距仍然存在于(极)低资源环境中。最后,我们讨论了神经声学特征建模,其中神经模型旨在直接从原始语音信号中提取声学特征,目的是简化归纳偏差并增加模型描述语音的自由度。

原网站

版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/17881