Python文本處理中用langid工具包來對文本進行語言檢測與判別

jopen 9年前發布 | 14K 次閱讀 Python Python開發

1.問題的描述

用Python進行文本處理時，有時候處理的文本中包含中文、英文、日文等多個語系的文本，有時候不能同時進行處理，這個時候就需要判別當前文本是屬于哪個語系的。Python中有個langid工具包提供了此功能，langid目前支持97種語言的檢測，非常好用。

2.程序的代碼

以下Python是調用langid工具包來對文本進行語言檢測與判別的程序代碼：

    import langid                                                         #引入langid模塊  

    def translate(inputFile, outputFile):  
        fin = open(inputFile, 'r')                                    #以讀的方式打開輸入文件  
        fout = open(outputFile, 'w')                                  #以寫的方式打開輸出文件  

        for eachLine in fin:                                          #依次讀入每一行  
            line = eachLine.strip().decode('utf-8', 'ignore')     #去除每行的首位空格等，并統一轉化成Unicode  
            lineTuple = langid.classify(line)                     #調用langid來對該行進行語言檢測  
            if lineTuple[0] == "zh":                              #如果該行語言大部分為中文，則不進行任何處理  
                continue  

            outstr = line                                         #如果該行語言為非中文，則準備輸出  
            fout.write(outstr.strip().encode('utf-8') + '\n')     #輸出非中文的行，從Unicode轉化成utf-8輸出  

        fin.close()  
        fout.close()  

    if __name__ == '__main__':                                            #相當于main函數  
        translate("myInputFile.txt", "myOutputFile.txt")

以上代碼是用來處理一個文本，將不屬于中文的行依次輸出到一個新的文件。

3.注意

第9、10行代碼，langid.classify(line)的輸出結果是一個二元組，二元組的第一項表示該文本所屬的語系，如：zh表示中文、en表示英語、等等；二元組的第二項表示該文本中屬于第一項中語系的所占比例。

希望對大家有所幫助。

來自：http://blog.csdn.net/xiaoguaihai/article/details/42083125

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1419249527406.html

Python Python開發

Python文本處理中用langid工具包來對文本進行語言檢測與判別

1.問題的描述

2.程序的代碼

3.注意

相關經驗

相關資訊

相關文檔

目錄