Google:用算法和大數據“干掉”語言學家
你能想象一個致力于打破語言障礙的項目小組里竟然沒有一位語言學家嗎?但是谷歌就是這么做了,這家公司打算依靠算法和大數據最終“干掉”語言學家。
Google 是一家極度看重算法、充滿工程師文化的公司,但或許你還是會為此而感到驚奇——他們認為翻譯是一個數學和統計學方面的問題。最近,位于 Google 總部的 Google Translate 團隊正迅速擴張,他們新招了數名德國計算機科學家,但卻沒有招收一名語言學家。
Google Translate 部門主管 Franz Josef Och 同樣也是德國計算機科學家出身,他不但并不精通語言學,甚至并不擅長語言學習。他認為,機翻的關鍵在對數學、統計和編程方面的擅長。
Google Translate 團隊并不會去模仿人工翻譯的方式,這就是他們沒有去開發字典、定義語法結構和規則的原因。事實上,語法規則對目前的計算機來說仍然難以掌控。Google 更著重于以大數據和統計的方式入手,翻譯系統會不斷地調整翻譯結果的相關性并自我學習如何處理數十億的文字。通過這種方式,計算機最終能不斷優化翻譯結 果。
以大數據方式做翻譯的一個好處是,翻譯系統會隨著數據的積累而不斷地改善。Google Translate 目前已經支持 71 種語言的互譯,去年用戶的使用次數已經達到 2 億次。此外,索引全球網頁的 Google 還能夠依靠互聯網上已經存在的翻譯內容改善自己的翻譯系統。
盡管如此,依賴算法的翻譯系統仍然遠遠無法做到像人工翻譯那么精準。句法、語調、歧義都是自動翻譯軟件很難處理的問題。Google Translate 的翻譯結果仍然只能幫助人們對陌生語言進行大致上的理解,有時候得到的翻譯結果很難讓人通順地閱讀下來。
此外,Google Translate 在不同的語系之間的翻譯結果質量也各不相同。例如,英語和西班牙語之間的互譯翻譯質量良好,英語和日語之間的互譯不怎么樣,英語和德語之間的互譯則非常糟糕。
盡管如此,機翻有一個人工翻譯難以做到的優勢——它讓更多的人接觸到了更多的信息。試想一下如果你舉著手機就可以與世界上任何語種的任何人交流,那會是多么棒的體驗。
(本文根據 pingwest 網站《翻譯這事兒,google 認為算法和大數據比語言學靠譜》一文編輯,原文作者童濱。)