50行Python代碼寫一個語言檢測器
你有沒有曾經好奇過Chrome瀏覽器是如何知道一個網頁的語言,并對外國文字的網頁提供翻譯服務的?或者,非死book是如何翻譯你朋友用寫在你主頁上的外國文字?檢測一種語言實際上非常簡單,改進了用戶體驗,而且不需要用戶做任何的事情。
我無意中發現的 ActiveState recipe for a language detector in Python這是非常不錯的一段程序,但是我決定做點小小的改進。提供一些背景知識給那些不熟悉自然語言處理或者是程序語言學的人。
如果你是有經驗的程序員,你也許可以直接跳到這段文字最下端的程序部分。出奇的簡單。
你需要熟悉Python語法。如果你從來沒有用過python, 我建議你讀一下 Zed Shaw 的《 Learn Python the Hard Way》。
確定你下載并安裝了python,而且可以正常運行程序。這段文字中的python不算很長,所以你可以用任何文本編輯器從而省去安裝任何軟件的麻煩。(譯者注:在線的python 編譯器也可以運行這段程序,其中一種編譯器在jobbole 的另一篇文章中提到過,http://blog.jobbole.com/53346/)。
第一部分,什么檢測到了一種語言?
在你寫區分語言的程序之前,你需要回答一個問題:什么區別了兩種語言?
有趣的是,這個問題的答案會根據不同的比較語言而有所不同。比如:
女性が牛乳を飲んだ。 (譯者注: 日語:女性喝牛奶。)
你是怎么知道這句話不是英文的?你也許不熟悉日文,但是你肯定知道這些字符不是英文,你甚至不需要知道具體哪個字符不存在于英文字母中。
La femme boit du lait. (譯者注: 法語:女性喝牛奶。)
你怎么知道這句話不是英文的?有一點麻煩。每個字母都在英文中。甚至每一個字母和句型結構都和英文的同一個意思的那句話很相似—— “The woman drank milk.” (譯者注: 英語:女性喝牛奶。) 。 你的大腦用了另一個特性去判斷這個:盡管字母很相似,這兩句話發音沒有任何相似之處。
還有很多更復雜的方式去檢測兩種不同的語言(例如,語法、句法等等)上面提到的兩個特性似乎足夠用來區分很多的書寫文字。
提問:你可以想到一個相反的例子嘛? 兩種不能用字符或者發音而區分的語言?(譯者注:這是我想到的,和編者沒有任何關系。Hindi 和Nepali 的區分度極低,印度的一種語言和尼泊爾的官方語言的區別度非常低,字符區別很低而發音更高達50%的相似度。當然,他們兩個是同一語系的語種。)
第二部分,如何用計算機檢測到這些特性?
第一個特性已經存在于任何一臺現代化的機器里 ——character encodings 字符解碼允許任何一臺計算機去通過二進制碼而呈現每一個字符。我們要用unicode 在Python 的程序中。
第二個特征更有意思。如何能讓一臺電腦檢測到字符串的發音呢?答案比想象的簡單點:字符串順序是按照聲音解碼的!他們有直接的穩定的對應關系- 語言改變的非常緩慢。
因此,你可以用下面的兩個特性去檢測一行文本語言:
- 單個字符的重復性
- 字符串的重復性
實際上,這兩個特性濃縮到了一個特性中:字符串的順序。單個字符的重復性只是字符串的重復性。
快速知識補充:在計算機語言學中,字符串的長度 n 被定義為 n-gram。 “a” 是一個gram, 1-gram. “bc”是兩個gram,2-gram or bigram。 “def” 是三個gram, 3-gram 或者trigram,以此類推。
第三部分,用python 實現吧!
首先,我們需要計算某個字符串在特定文本中出現的次數。為了封裝結果,我們將建立一個NGram 類。
class NGram(object): def __init__(self, text, n=3): self.length = None self.n = n self.table = {} self.parse_text(text) def parse_text(self, text): chars = ' ' * self.n # initial sequence of spaces with length n for letter in (" ".join(text.split()) + " "): chars = chars[1:] + letter # append letter to sequence of length n self.table[chars] = self.table.get(chars, 0) + 1 # increment count
代碼實際上很短,定義了一個NGram類去接受一個unicode的文本輸入作為一個參數。它還定義了一個選擇性的參數n作為定義字符序列的長度。這段程序讀取了輸入文本的每個字符然后建立了一個python 的詞典(dictionary),該詞典包含了所有小于n長度的字符序列以及相對應的出現頻率。比如,輸入:”Snail Mail.” 將得到3-gram 的詞典:
{ ' S': 1, ' Sn': 1, 'Sna': 1, 'nai': 1, 'ail': 2, 'il ': 1, 'l M': 1, ' Ma': 1, 'Mai': 1, 'il.': 1 }
第四部分:如何比較兩個NGrams?
即使上面介紹的NGram類可以用來計算字母序列出現的頻率,我們始終不知道如何比較NGrams.我們想要在不同的語言中找到最接近匹配去代表那種語言。我們想要在一組給予的不同語言的Ngram 對象中,能找到最接近的匹配對象。為了協調匹配NGram 去找到最佳的匹配,我們引進了兩個新的函數: calculate_length() 和 _sub_() 去允許Python 實現兩個NGram對象之間的減法。
這樣的減法應用于多緯NGrams向量。每個獨立的n 字符序列代表著向量的一個維度。Calculate_length()函數用來計算向量的長度(分散范圍)。找到NGram向量間的角度就是找到向量間的相似性。這個技術被稱做基于向量的查詢 (這篇是基于perl 的文章,基本上用Perl 實現了這篇作者上面闡述的所有觀點)。
實現代碼:
class NGram(object): def __init__(self, text, n=3): self.length = None self.n = n self.table = {} self.parse_text(text) self.calculate_length() def parse_text(self, text): chars = ' ' * self.n # initial sequence of spaces with length n for letter in (" ".join(text.split()) + " "): chars = chars[1:] + letter # append letter to sequence of length n self.table[chars] = self.table.get(chars, 0) + 1 # increment count def calculate_length(self): """ Treat the N-Gram table as a vector and return its scalar magnitude to be used for performing a vector-based search. """ self.length = sum([x * x for x in self.table.values()]) ** 0.5 return self.length def __sub__(self, other): """ Find the difference between two NGram objects by finding the cosine of the angle between the two vector representations of the table of N-Grams. Return a float value between 0 and 1 where 0 indicates that the two NGrams are exactly the same. """ if not isinstance(other, NGram): raise TypeError("Can't compare NGram with non-NGram object.") if self.n != other.n: raise TypeError("Can't compare NGram objects of different size.") total = 0 for k in self.table: total += self.table[k] * other.table.get(k, 0) return 1.0 - (float(total) / (float(self.length) * float(other.length)) def find_match(self, languages): """ Out of a list of NGrams that represent individual languages, return the best match. """ return min(languages, lambda n: self - n)
第五部分:如何比較NGram?
選擇合適的NGram 模型相當的簡單。你只需要將unicode的文本改成任何一種你想要選擇的語言。
english = NGram(training_text, n=3) #trigram
如果你想比較兩個NGram 模型。你可以用兩個模型做減法來尋找兩個模型的相似性(_sub_()是用來實現這個功能的)。
similarity = english - NGram(text, n=3)
如果你想用 Python list 或者iterator實現一個簡單的基于向量的搜索, 你可以用NGram 類中的find_match(language)方式。搜索將在參數languages上實現對NGram對象的疊代。
languages = [english, spanish, french] NGram(text, n=3).best_match(languages)
正如你所見,真正的生產實現中的問題,在于尋找正確的數據去實現NGram 模型。如果你想建立一個很好的語言檢測器,你需要找到一些很有代表性的文本例子去代表你想測試的語言。Wiki百科上有很多很好的例子可以作為你的數據來源。
除了文本檢測,你還可以用NGram 去做其他有意思的事情。Google 的瀏覽顯示 就是一個很好的例子。它用了剛才創建的Python代碼去實現了相似的統計應用。Google 還公開了做這個統計實驗用的數據。
第六部分: 現在該干些什么了呢?
很多事情可以去做!我們從一個文本檢測器開始,同樣的方法可以在很多其他領域應用。比如說,你可以修改你的代碼,讓這個文本檢測器不再只檢測字母字符,而是直接進行詞語匹配。理論上來說,這些詞法順序(用詞的方式根據個人習慣而有所不同)可以用來鑒定一作者的寫作。
N-Grams的概念可以在不同的領域應用。比如:
- 語法拼寫建議(建議改正非正確語法詞匯)
- 鑒定DNA序列
- 提高壓縮算法的有效性
- 改進搜索引擎
- 改進語音識別系統和特征,通過某個特定詞語會出現在另一個詞語后面的概率
盡管每種應用都會有所不同,但是本質上都是相似的,需要比較單獨個體的相似性。當你需要使用序列時,不妨考慮NGram。
原文鏈接: ebookglue 翻譯: 伯樂在線 - 人見人愛的土豆
譯文鏈接: http://blog.jobbole.com/54707/