Python中文分詞組件結巴:jieba

jopen 12年前發布 | 68K 次閱讀 Python 中文分詞

jieba

"結巴"中文分詞:做最好的Python中文分詞組件

Feature

  • 支持兩種分詞模式:
  • 1)默認模式,試圖將句子最精確地切開,適合文本分析;
  • 2)全模式,把句子中所有的可以成詞的詞語都掃描出來,適合搜索引擎。

Usage

  • 自動安裝:python setup.py install
  • 手動安裝:將jieba目錄放置于當前目錄或者site-packages目錄
  • 通過import jieba 來引用 (第一次import時需要構建Trie樹,需要幾秒時間)

Algorithm

  • 基于Trie樹結構實現高效的詞圖掃描,生成句子中漢字構成的有向無環圖(DAG)
  • 采用了記憶化搜索實現最大概率路徑的計算, 找出基于詞頻的最大切分組合
  • 對于未登錄詞,采用了基于漢字位置概率的模型,使用了Viterbi算法

代碼示例

#encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #默認模式

seg_list = jieba.cut("他來到了網易杭研大廈")
print ", ".join(seg_list)

Output:

Full Mode: 我/ 來/ 來到/ 到/ 北/ 北京/ 京/ 清/ 清華/ 清華大學/ 華/ 華大/ 大/ 大學/ 學

Default Mode: 我/ 來到/ 北京/ 清華大學

他, 來到, 了, 網易, 杭研, 大廈    (此處,“杭研”并沒有在詞典中,但是也被Viterbi算法識別出來了)

項目主頁:http://www.baiduhome.net/lib/view/home/1349268172869

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!