在這個多語言的世界里,知道你要搜什么嗎?

jopen 9年前發布 | 7K 次閱讀 語言

在這個多語言的世界里,知道你要搜什么嗎?

所有類似 Google 這樣的搜索引擎,核心處理過程都一樣:從言辭寥寥的模糊問題中解讀出最可能的涵義,從問題中推測出用戶的意圖,進而根據以上推測決定最優搜索結果,反饋給 用戶。互聯網的語言種類越來越多,豐富的語言多樣性使得搜索的過程更為復雜。由于同一主題的相關搜索詞匯在不同國家的語言中大不一樣,宏觀社會層面的搜索 數據的嘗試遇到了挑戰。本文中我將探討 Google Trends 試圖解決多語言問題作出的嘗試以及其使用的方法的局限和沖突產生之處。

我們可以想象用戶用 Google 搜索「pizza」的過程:用戶可能想知道附近有多少家披薩店 (第一次來到這片區域),可能想知道今天的特價午餐列表 (用戶已經知道附近的餐廳,正決定去哪家吃午餐) 或者披薩菜譜 (正準備親自下廚)。用戶也可能是一個正在準備論文的學生,想知道披薩的歷史以及它對全球的影響,再或者,用戶是一個嘗試推行新菜品的廚師,想要了解最近 的披薩的趨勢。Google 必須判斷這些可能的情況,選擇最相關的信息反饋給用戶。每一種不同的情況得到的搜索網頁將大不相同。

你如果掃一眼 Google Trends 的「pizza」搜索條目頁面底部的相關搜索,就能夠感受到當中的復雜程度。從「附近的披薩店」、披薩優惠券到披薩菜譜,各個方面的信息在搜索列表中一應 俱全。從搜索條目時間軸可以很明顯的看出,全球范圍的用戶對披薩的搜索量在過去的十年中呈現近乎完美的線性增長。以下的搜索量分布地圖顯示美國、加拿大、 澳大利亞和新西蘭成為披薩搜索榜的領先國家,而披薩的產地意大利卻排名較靠后。

在這個多語言的世界里,知道你要搜什么嗎?

出現這個現象的原因可想而知,「pizza」很明顯是一個英文單詞,所以搜索結果地圖上僅顯示了使用英語的網友。想要更準確地了解世界范圍內披薩 的搜索熱度,我們必須將同詞義的各國語言詞匯都納入搜索。為了幫助理解多語言環境下的某一主題,Google Trends 針對每個獨立的標簽構建「主題」,即用預先定義的標題對所有相關的詞匯、替代拼寫和其他語言的名稱進行分組。Google 給了一個例子,主題「東京」——日本首都,同義詞有東京, Токио, Tokyyo, Tokkyo,還有相關詞匯比如「日本首都」。搜索主題「pizza」——而不是英文單詞「pizza」——得到了同樣的搜索時間軸,但是地理分布圖卻大 不一樣。地圖顯示搜索量主要集中在意大利和歐洲而不是美國(雖然美國的搜索量也很多)。

在這個多語言的世界里,知道你要搜什么嗎?

可見主題的功能非常強大,它能夠將多種語言的相關詞匯集中起來。另一方面,同一個單詞在不同語言中涵義不同即語言重疊會讓主題搜索變得混亂。以下 的折線圖證明了這一點,可以清楚的看出,美國對英文詞組「united nations」的搜索量在過去十年中穩速下滑,世界范圍內的搜索趨勢亦是如此。

在這個多語言的世界里,知道你要搜什么嗎?

阿拉伯人或日本人可能不會使用英文詞匯「united nations」,Google 創建了主題「united nations」來將它在其他語言中的拼寫和相關詞匯集中在一起。美國國內對主題「united nations」的搜索相對穩定,主要是因為該主題收錄了「united nations」常用的首字母縮寫。然而,下圖中顯示的全球范圍內對「united nations」的搜索趨勢幾乎與美國國內的趨勢相反,搜索熱度呈現線性增長。

在這個多語言的世界里,知道你要搜什么嗎?

是什么導致了這種現象呢?主要原因是 Google 把「un」作為同義詞收錄到了 united nations 主題下。從以下地圖中各國對 united nations 主題搜索熱度情況來看,拉脫維亞排第一,靠前的排名幾乎都被法國和講西班牙語的國家占據。

拉提維亞、法國和西班牙語國家都將「un」作為常用的冠詞, 類似于英語中的「the」。事實上,在 Google Trends 上搜索單詞「un」會得到和搜索主題「united nations」一樣的結果。

我們進一步看,即使是美國人也會將「un」作為西班牙語使用,比如說搜索「Darte un Beso」——2013 年的一首熱歌,「como hacer un」(一本指南書名) 以及人名「Kim Jong Un」。事實證明不僅是 united nations 主題可能會因為收錄「un」而產生不準確的搜索數據,即使將搜索數據限制在某一國家范圍之內也無法消除語言的不同,因此辨別模糊的語義必須從語言本身來判 斷,而不是依靠地理或政策。

問題出現的潛在原因是主題全球詞匯的編輯由機器學習或者人工編輯們預先完成。這個過程本質是在做一個復雜的布爾或命題,命題沒有包含語義豐富的上 下文消除歧義,給定的單詞在問題中怎么用,問題的語言,以前的問題等等,因為難以消除歧義得到真正的涵義。在主題編輯的過程中詞匯和語義的關聯主要由它們 的最常使用方式決定而不是上下文語境,故而不管你是用英文還是拉脫維亞語搜索,「un」都被當做 United Nations 的縮寫。Google Trends 存在的問題是沒有提供給用戶一種簡單的方式來查看相關主題的完整詞條列表,以及主題和詞條的隸屬關系,進而根據自身領域知識來移除一些有錯誤的詞條。

在這個多語言的世界里,知道你要搜什么嗎?

這不僅僅是語義上的主題使用混亂。如果使用 Trends 搜索「美國總統選舉,2016」并將搜索結果縮小到美國用戶,結果顯示搜索熱度在 2012 年美國總統奧巴馬連任數月后急劇增長。另外,2004 年 10 月對「2016 選舉」的搜索熱度要高于現在。

查看相關搜索列表,可以很明顯的看出主題包含許多「選舉」、「總統選舉」、「選舉民意調查」這類的詞匯,這些都是通用詞匯,不單指 2016 年選舉,這些詞條的收錄可能解釋了搜索熱度在 2004 年出現了高峰的原因。然而,相關度排名第二的詞匯是「2016」,主題中還收錄了 2016 年奧運會,2016 年的各種車型以及其他與 2016 相關重大事件,總統選舉僅占據相關搜索的一部分。進一步看,與 2016 相關的所有搜索趨勢都呈現相似的增長,這證明了「2016」是導致相關上漲的原因。僅針對「選舉」的搜索則呈現相對穩定的結果,在 2015 年的熱度相對過去幾年沒有顯著的增長,目前的搜索水平也沒有超過往年的峰值。

在這個多語言的世界里,知道你要搜什么嗎?

那么關鍵問題是,哪一個搜索結果是正確的呢?「2016 年選舉」的搜索熱度真的在 10 年前達到了峰值?并且在奧巴馬連任后突然性的增長?亦或者,搜索熱度一直穩定,相對過去十年沒有增長?除非把「2016 選舉」這個主題收錄的所有詞條一一列出逐條分析它們的搜索熱度趨勢圖,否則我們不可能知道哪一張趨勢圖是正確的。事實上,大數據分析常常基于這樣預定義的 聚合和過濾操作,在很大程度上是不透明的,難以洞察其中的真實規律。

我們的研究工作中有兩個主要問題——多語言的網絡環境造成的搜索準確度的降低以及數據過濾的不透明性對分析結果的實質影響。Google 使用預定義的主題來管理不同語言中的相關詞匯,走出了沖破全球語言壁壘的一大步。另一方面,主題中語言歧義可能導致搜索結果混亂不清,原因有兩個,一是詞 匯在不同語言中表意不同;二是主題詞條收錄的問題,比如總統選舉的主題下有一些和 2016 年高度相關的詞條,這顯然是不合適的。Google 如果想讓主題管理詞條的方式為主流所接受,必須提高數據過濾過程的透明度。Google 可以添加一個展示主題下所有的詞條的界面,每個詞條附有其對搜索結果的影響以及它們語義、地理、學術方面的上下文,并且提供編輯和移除詞條的功能,這對解 決以上問題有很大的幫助。

互聯網起源于學術工作者小范圍的信息交流,如今已經成長到一個覆蓋全球語言的信息網絡。上文中搜索混亂的問題僅僅只是信息搜索技術全球擴張和成長過程必然的阻礙,在未來,語言將不會成為我們了解世界的阻礙。

本文來源: Forbes 譯文創見首發 由 TECH2IPO/創見 塵大大 編譯 轉載請注明出處

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!