Google Translate 的新改進

五嘎子 4年前發布 | 856 次閱讀 Translate Google

  字幕組雙語原文:Google Translate 的新改進

  英語原文:Recent Advances in Google Translate

  機器學習(ML)的進步推動了自動翻譯的進步,包括 2016 年在翻譯中引入的 GNMT 神經翻譯模型,它極大地提高了 100 多種語言的翻譯質量。然而,除了最具體的翻譯任務之外,最先進的翻譯系統在所有方面都遠遠落后于人類的表現。雖然研究界已經開發出了一些技術,成功地應用于高資源語言,如西班牙語和德語,這些語言有大量的訓練數據,但在低資源語言,如約魯巴語或馬拉雅拉姆語,性能仍有待提高。在受控的研究環境中,許多技術已經證明了對低資源語言的顯著改善(例如 WMT 評估運動),然而這些在較小的、公開的數據集上的結果可能不容易轉換到大型的、網絡爬得數據集。

  在本文中,我們將通過綜述和擴展各種最新進展,分享一些我們在支持語言的翻譯質量方面所取得的進展,特別是那些資源較少的語言,并演示如何將它們大規模應用于嘈雜的、Web 挖掘的數據。這些技術包括模型架構和訓練的改進,數據集中噪音的改進處理,通過 M4 建模增加多語言遷移學習,以及單語數據的使用。BLEU 分數在所有 100 多種語言中平均為增加 5 分,翻譯質量提高如下圖所示。

Google Translate 的新改進

  谷歌的 BLEU 評分自 2006 年成立后不久就開始翻譯模型。最后的動畫效果顯示自去年實施新技術以來得到了提升。

  對高資源和低資源語言的改進

  混合模型架構:四年前我們引入了基于 RNN 的 GNMT 模型,它帶來了巨大的質量改進,并使翻譯覆蓋了更多的語言。隨著我們對模型性能的不同方面的解耦工作的進行,我們替換了原來的 GNMT 系統,用一個 transformer 編碼器和一個 RNN 解碼器來訓練模型,用 Lingvo(一個 TensorFlow 框架)實現。Transformer 模型已經被證明在機器翻譯方面比 RNN 模型更有效,但我們的工作表明,這些質量的提高大部分來自變壓器編碼器,而 Transformer 譯碼器并不比 RNN 譯碼器明顯好。由于 RNN 解碼器在推理時間上要快得多,我們在將其與 transformer 編碼器耦合之前進行了各種優化。由此產生的混合模型質量更高,在訓練中更穩定,表現出更低的潛伏期。

  網絡爬取:神經機器翻譯(NMT)模型使用翻譯句子和文檔的示例進行訓練,這些示例通常是從公共網絡收集的。與基于短語的機器翻譯相比, NMT 對數據質量更加敏感。因此,我們用一個新的數據挖掘器取代了以前的數據收集系統,它更注重精確率而不是召回率,它允許從公共網絡收集更高質量的訓練數據。此外,我們將 Web 爬蟲從基于字典的模型轉換為基于 14 個大型語言對的嵌入模型,這使得收集到的句子數量平均增加了 29%,而精度沒有損失。

  建模數據噪聲:具有顯著噪聲的數據不僅冗余,而且會降低在其上訓練的模型的質量。為了解決數據噪聲問題,我們利用去噪 NMT 訓練的結果,使用在有噪聲數據上訓練的初步模型和在干凈數據上進行微調的模型,為每個訓練示例分配一個分數。然后我們把培訓當作一個課程學習問題——模型開始對所有數據進行培訓,然后逐漸對更小、更清晰的子集進行培訓。

  這些進步尤其有利于低資源語言

  反向翻譯:在最先進的機器翻譯系統中廣泛采用,反向翻譯對于并行數據稀缺的低資源語言特別有用。這種技術將并行訓練數據(一種語言的每句話都與它的翻譯配對)與合成并行數據(一種語言的句子由人編寫,但它們的翻譯是由神經翻譯模型生成的)相加。通過將反向翻譯合并到谷歌翻譯中,我們可以利用網絡上更豐富的低資源語言的單語文本數據來訓練我們的模型。這對于提高模型輸出的流暢性尤其有幫助,而這正是低資源轉換模型表現不佳的領域。

  M4 建模:M4 是一種對低資源語言特別有幫助的技術,它使用一個單一的大型模型在所有語言和英語之間進行轉換。這允許大規模的遷移學習。分享一個例子,低資源語言像意第緒語能通過聯合其他相關日耳曼語言(如德國、荷蘭、丹麥等)進行訓練,與近一百個其他的、不可能共享一個已知連接的語言,獲得有用的信號模型。

  評判翻譯質量

  對于機器翻譯系統的自動質量評估,一個流行的衡量標準是 BLEU 評分,它是基于系統的翻譯和人們生成的參考翻譯之間的相似性。通過這些最新的更新,我們看到 BLEU 平均比以前的 GNMT 模型提高了 5 分,其中 50 種資源最低的語言平均提高了 7 分。這一進步與四年前從基于短語的翻譯過渡到 NMT 時觀察到的增益相當。

  盡管 BLEU 分數是一個眾所周知的近似度量,但眾所周知,對于已經高質量的系統來說,它有各種各樣的缺陷。例如,有幾部作品演示了在源語言或目標語言上的翻譯語效應如何影響 BLEU 分數,在這種現象中,翻譯的文本可能聽起來很別扭,因為其中包含源語言的屬性(如詞序)。基于這個原因,我們對所有的新模型進行了并排的評估,結果證實了在藍帶的效果。

  除了總體質量的提高之外,新模型對機器翻譯幻覺的魯棒性也有所增強。機器翻譯幻覺是指當輸入無意義的信息時,模型會產生奇怪的“翻譯”。對于那些在少量數據上進行訓練的模型來說,這是一個常見的問題,并且會影響許多低資源語言。例如,當考慮到泰盧固語字符的字符串“???????????????”,舊的模式產生了荒謬的輸出“深圳肖深圳國際機場(SSH)”,似乎試圖理解的聲音,而新模型正確學會直譯為“Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh”。

  結論

  盡管對于機器來說,這些都是令人印象深刻的進步,但我們必須記住,特別是對于資源較少的語言,自動翻譯的質量遠遠不夠完美。這些模型仍然是典型的機器翻譯錯誤的犧牲品,包括在特定類型的主題(“領域”)上表現不佳,合并一種語言的不同方言,產生過多的字面翻譯,以及在非正式語言和口語上表現不佳。

  盡管如此,通過這次更新,我們很自豪——提供了相對連貫的自動翻譯,包括支持的 108 種語言中資源最少的語言。我們感謝學術界和工業界的機器翻譯研究人員所做的研究。

  致謝

  這一成果基于以下這些人的貢獻:Tao Yu, Ali Dabirmoghaddam, Klaus Macherey, Pidong Wang, Ye Tian, Jeff Klingner, Jumpei Takeuchi, Yuichiro Sawai, Hideto Kazawa, Apu Shah, Manisha Jain, Keith Stevens, Fangxiaoyu Feng, Chao Tian, John Richardson, Rajat Tibrewal, Orhan Firat, Mia Chen, Ankur Bapna, Naveen Arivazhagan, Dmitry Lepikhin, Wei Wang, Wolfgang Macherey, Katrin Tomanek, Qin Gao, Mengmeng Niu, 和 Macduff Hughes.

  雷鋒字幕組是由 AI 愛好者組成的志愿者翻譯團隊;團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT 咨詢人、在校師生;志愿者們來自 IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

  了解字幕組請聯系微信:tlacttlact

來自:雷鋒字幕組

 本文由用戶 五嘎子 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
  轉載自:https://www.leiphone.com/news/202008/ekxv30IkXvOS1VVi.html