“有道”把人和機器撮合起來開發了一個翻譯工具

jopen 7年前發布 | 7K 次閱讀 有道

“有道”把人和機器撮合起來開發了一個翻譯工具

2016 年人工智能領域人機大戰不斷,然而最適合人工智能的工作不應該是挑戰人類,而是和人類工作結合。

在面臨翻譯的問題時,免費的機器翻譯仍然不是特別準確,即使是最新使用深度神經網絡的翻譯工具也還存在一些問題;長文的人工翻譯又費時費力,有道在這方面有一些新的思考,上線了一個人機合作的人機翻譯工具。

對于技術本身而言,機器翻譯對于普羅大眾就不是什么大新聞,特別是這些技術還并不能直接讓用戶有什么特別感觸。但自從 Google 宣布了基于深度神經網絡的 GNMT 翻譯框架后整個翻譯工具圈一下火熱了起來,甚至牽出了不少國內的翻譯工具公司,比如百度、網易幾大互聯網巨頭都在這上面有不少投入。

了解這條消息前先普及一些基本信息,比如傳統機器翻譯和基于深度神經網絡的翻譯有何不同?

傳統機器翻譯,就是把一個固定的字詞或者詞組翻譯成目標語言。根據劍橋大學自然語言處理(NLP)組的陳村在一篇文章中的描述,傳統機器翻譯界的主流方法都是 Phrased-Based Machine Translation (PBMT),此前連 Google 翻譯使用的也是基于這個框架的算法。所謂基于詞組,就是將原語句中的話拆成詞組,在對應詞組進行逐一翻譯,最后再把順序匯總成目標語言的一句話。

比如說“今天我想吃蛋糕”,可能會被機器拆解成“今天”、“我”、“想”、“吃蛋糕”。PBMT 翻譯模式會將這幾個詞逐一做翻譯,然后根據自然語言處理重新排序,最后所呈現的結果讓它看起來像一句話。所以這也解釋了為什么在使用機器翻譯的時候會出現大量的語序問題、以及對應詞匯的翻譯根本沒有結合段落上下文的問題。

而基于神經網絡的翻譯模式是近年來發展的一個大方向,深度神經網絡結構去直接學習擬合源語言到目標語言的概率。

nmt-model-fast-1

著名的 GNMT 的理解邏輯

通俗來說,傳統統計機器翻譯(SMT)的處理過程,更像一堆模塊的組合、翻譯、分詞、調序等每條細分的“流水線”各司其職,最后把這些模塊通過設定的機制組合起來,輸出翻譯結果;而 NMT 的框架會將需要翻譯的原文看做一個整體,實現了以句子為整體的上下翻譯環境,在單句中翻譯結果更加具有邏輯性,尤其是當一個長句子出現時,這種翻譯模型就比更傳統的 PBMT 更加有序。

搞定了 NMT 結構框架,然后就要依賴數據喂養。比如傳統通用模型可以選擇中英文對照版本的書籍,而有道在新聞語料和英語學習類語料這兩個方面來源數據更多,所以他們的模型訓練在這方面更成熟。與傳統的基于短語的翻譯相比,有道宣布 YNMT(Youdao-NMT) 翻譯質量的提升是 SMT 過去兩年累計提升的總和,YNMT(Youdao-NMT)在新聞類語料和英語學習類語料兩方面的的盲測 BLEU 值(代表準確度)甚至超過了 GNMT(Google-NMT),而 BLEU 值是一種代替人工的、針對翻譯工作的自動評價方法。

現在我們對這項機器翻譯服務有了一個基本的認識。有道官方告訴 PingWest 品玩(微信公眾號:wepingwest),在得到了機器翻譯的初稿之后,他們將在機器翻譯結果上,對譯文進行人工編輯和審校潤色兩輪修改,用來確保翻譯準確。

“有道”把人和機器撮合起來開發了一個翻譯工具

人工智能并不是某個具象的技術,人工智能更像是一種全新的思維模式,成為了一種輔助人工作的工具。不過盡管 NMT 屬于一種更先進的翻譯模式,但距離人工翻譯的精確度還有一定距離,比如在一些專有名詞以及專業術語中,也就是出現了罕見的數據源,翻譯可能就會出現一定問題;而且目前 NMT 也只是考慮到單句中字詞的聯系,也不能結合到整個段落。

不過欣喜的是,人工智能確實幫助了我們在翻譯領域提高效率。有道人機翻譯就是使用了這種概念——先用 YNMT 去輔助譯員,做了初級翻譯的工作,一定程度上分擔譯員的工作,然后剩下的工作量由人工完成。如果將人工智能置于其他行業,所能代表的工具屬性大致如此。

人機翻譯的機構客戶比較多,這種大量中英文的翻譯工作在一些跨境機構中需求明顯。有道人機翻譯的服務個人用戶以及企業用戶都可以下單。有道的一位工作人員告訴我——“比如對于網易考拉這樣的跨境機構來講,有很多海外的化妝品,需要翻譯商品介紹、化妝品成分,他們的翻譯需求很大,也要求準確,人機翻譯就是很好的模式,便宜、準確、也很快。”

來自: www.pingwest.com

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!