Python中文分詞組件結巴:jieba
jieba
"結巴"中文分詞:做最好的Python中文分詞組件
Feature
- 支持兩種分詞模式:
- 1)默認模式,試圖將句子最精確地切開,適合文本分析;
- 2)全模式,把句子中所有的可以成詞的詞語都掃描出來,適合搜索引擎。
Usage
- 自動安裝:python setup.py install
- 手動安裝:將jieba目錄放置于當前目錄或者site-packages目錄
- 通過import jieba 來引用 (第一次import時需要構建Trie樹,需要幾秒時間)
Algorithm
- 基于Trie樹結構實現高效的詞圖掃描,生成句子中漢字構成的有向無環圖(DAG)
- 采用了記憶化搜索實現最大概率路徑的計算, 找出基于詞頻的最大切分組合
- 對于未登錄詞,采用了基于漢字位置概率的模型,使用了Viterbi算法
代碼示例
#encoding=utf-8
import jieba
seg_list = jieba.cut("我來到北京清華大學",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式
seg_list = jieba.cut("我來到北京清華大學",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #默認模式
seg_list = jieba.cut("他來到了網易杭研大廈")
print ", ".join(seg_list)
Output:
Full Mode: 我/ 來/ 來到/ 到/ 北/ 北京/ 京/ 清/ 清華/ 清華大學/ 華/ 華大/ 大/ 大學/ 學
Default Mode: 我/ 來到/ 北京/ 清華大學
他, 來到, 了, 網易, 杭研, 大廈 (此處,“杭研”并沒有在詞典中,但是也被Viterbi算法識別出來了)
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!