機器翻譯這么難用,我們還是離不開它
全世界共有超過 6000 種語言,科技巨頭們正在嘗試用新技術彌合人與人之間的溝通障礙。但是,機器翻譯的體驗實在是太糟糕了。
上個月,微軟旗下的 Skype 推出了一項“實時翻譯”的功能,英語和西班牙語的用戶交流時,Skype 會自動翻譯,并語音播送。
如今,類似的功能也成為Google 要攻下的城池:移動應用 Google Translate 將增加支持語種達 90 種,同時針對個別語言支持“語音翻譯”——用語音輸入 A 語言,應用翻譯出 B 語言的文本。
當然,這樣的翻譯效果并不如你所愿,即便是純文本版的 Google Translate 也常常伴生著語法、語序的錯誤。Skype 的實時翻譯同樣如此,從宣傳片的使用演示中看,這項功能要配合耳機,整個過程仿佛是兩個接線員在用對講機。
包括 Google Translate 的機器翻譯,局限性在于機器算法和語言文學性的差異。機器翻譯無法提供準確的譯文,它經常 忽略語境、上下文來翻譯詞匯 ,也并不遵守語法。機器翻譯,現在仍然處在“詞典”的階段。
機器翻譯算法基于統計分析,重在翻譯效率而非準確性,但是語言本身具有“人性”,包括語法、語義、情感都無法被算法翻譯。
盡管如此,人們還是迫切的需要翻譯應用。Google Translate 的下載量已經超過 1 億,月活躍用戶達到 5 億。機器翻譯的背后是一個巨大的市場。包括 非死book、微軟在內的巨頭都進行著翻譯機器的項目。
可以預見,未來的機器翻譯,會在準確性上大大提升,這就依靠一個龐大的數據庫,來使機器不斷學習,讓機器更加理解人。
在形式上,未來的翻譯也將更為智能化,比如即時翻譯,類似現在的人工同聲傳譯。Skype 的實時翻譯雖然在效率上有待提高,但是卻提供了一個奇妙的前景,機器翻譯的最終使命,就是消除語種的差異。
以數據和算法方式做翻譯可以讓翻譯系統會隨著數據的積累而不斷地學習改進,但是這里又產生了一個新的問題,如果數據庫積累用戶的語言內容和習慣,勢必涉及隱私。
語言研究機構 Hypervoice Consortium 表示 ,僅僅有 1% 的用戶愿意貢獻自己的使用數據,來幫助翻譯機器學習。大多數的用戶則希望,翻譯機器就像 Siri 一樣,將數據封閉,只為自己服務。
題圖來自 CNET
原文 http://www.ifanr.com/482397