Python中文分詞組件結巴：jieba

jopen 13年前發布 | 68K 次閱讀 Python 中文分詞

jieba

"結巴"中文分詞：做最好的Python中文分詞組件

Feature

支持兩種分詞模式：
1）默認模式，試圖將句子最精確地切開，適合文本分析；
2）全模式，把句子中所有的可以成詞的詞語都掃描出來，適合搜索引擎。

Usage

自動安裝：python setup.py install
手動安裝：將jieba目錄放置于當前目錄或者site-packages目錄
通過import jieba 來引用（第一次import時需要構建Trie樹，需要幾秒時間）

Algorithm

基于Trie樹結構實現高效的詞圖掃描，生成句子中漢字構成的有向無環圖（DAG)
采用了記憶化搜索實現最大概率路徑的計算, 找出基于詞頻的最大切分組合
對于未登錄詞，采用了基于漢字位置概率的模型，使用了Viterbi算法

代碼示例

#encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #默認模式

seg_list = jieba.cut("他來到了網易杭研大廈")
print ", ".join(seg_list)

Output:

Full Mode: 我/ 來/ 來到/ 到/ 北/ 北京/ 京/ 清/ 清華/ 清華大學/ 華/ 華大/ 大/ 大學/ 學

Default Mode: 我/ 來到/ 北京/ 清華大學

他, 來到, 了, 網易, 杭研, 大廈    (此處，“杭研”并沒有在詞典中，但是也被Viterbi算法識別出來了)

項目主頁：http://www.baiduhome.net/lib/view/home/1349268172869

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1349268172869.html

Python 中文分詞

Python中文分詞組件結巴：jieba

jieba

Feature

Usage

Algorithm

相關經驗

相關資訊

相關文檔

目錄