当前位置:网站首页>ICML2022 | 從零開始重新審視端到端的語音到文本翻譯

ICML2022 | 從零開始重新審視端到端的語音到文本翻譯

2022-06-10 23:01:00 智源社區

論文鏈接:https://arxiv.org/pdf/2206.04571.pdf

端到端 (E2E) 語音到文本翻譯 (ST) 通常依賴於使用源轉錄本通過語音識別或文本翻譯任務對其編碼器和/或解碼器進行預訓練,否則翻譯性能會大幅下降。然而,成績單並不總是可用的,而且文獻中很少研究這種預訓練對於 E2E ST 的重要性。在本文中,我們重新審視了這個問題,並探討了僅在語音翻譯對上訓練的 E2E ST 的質量可以在多大程度上得到提高。我們重新審視了之前證明對 ST 有益的幾種技術,並提供了一組最佳實踐,使基於Transformer 的 E2E-ST系統偏向於從頭開始訓練。此外,我們提出了參數化距離懲罰,以促進語音自注意力模型中的局部性建模。在涵蓋 23 種語言的四個基准測試中,我們的實驗錶明,在不使用任何轉錄本或預訓練的情况下,所提出的系統達到甚至優於以前采用預訓練的研究,盡管差距仍然存在於(極)低資源環境中。最後,我們討論了神經聲學特征建模,其中神經模型旨在直接從原始語音信號中提取聲學特征,目的是簡化歸納偏差並增加模型描述語音的自由度。

原网站

版权声明
本文为[智源社區]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/161/202206102142461648.html