結巴分詞 0.34 發布，Python 中文分詞組件

jopen 11年前發布 | 18K 次閱讀中文分詞

結巴分詞 0.34 發布，更新內容如下：

2014-10-20: version 0.34

提升性能，詞典結構由Trie改為Prefix Set，內存占用減少2/3, 詳見：https://github.com/fxsjy/jieba/pull/187；by @gumblex
修復關鍵詞提取功能的性能問題</p>
jieba

"結巴"中文分詞：做最好的Python中文分詞組件 "Jieba"

Feature
- 支持三種分詞模式：
- 支持繁體分詞
- 支持自定義詞典

seg_list = jieba.cut("我來到北京清華大學",cut_all=True) print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=False) print "Default Mode:", "/ ".join(seg_list) #精確模式

seg_list = jieba.cut("他來到了網易杭研大廈") #默認是精確模式 print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明碩士畢業于中國科學院計算所，后在日本京都大學深造") #搜索引擎模式 print ", ".join(seg_list)</pre>

Output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】：他, 來到, 了, 網易, 杭研, 大廈 (此處，“杭研”并沒有在詞典中，但是也被Viterbi算法識別出來了)

【搜索引擎模式】：小明, 碩士, 畢業, 于, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 后, 在, 日本, 京都, 大學, 日本京都大學, 深造</pre>

功能 2) ：添加自定義詞典

開發者可以指定自己自定義的詞典，以便包含jieba詞庫里沒有的詞。雖然jieba有新詞識別能力，但是自行添加新詞可以保證更高的正確率

用法： jieba.load_userdict(file_name) # file_name為自定義詞典的路徑

詞典格式和dict.txt一樣，一個詞占一行；每一行分三部分，一部分為詞語，另一部分為詞頻，最后為詞性（可省略），用空格隔開

范例：

</li>
- 之前：李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 云 / 計算 / 方面 / 的 / 專家 /
- 加載自定義詞庫后：　李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 云計算 / 方面 / 的 / 專家 /
- 自定義詞典：https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
- 用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
  
  </li> </ul>
- "通過用戶自定義詞典來增強歧義糾錯能力" --- https://github.com/fxsjy/jieba/issues/14
  
  </li> </ul>
  
  功能 3) ：關鍵詞提取
  - jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
  - setence為待提取的文本
  - topK為返回幾個TF/IDF權重最大的關鍵詞，默認值為20
  代碼示例（關鍵詞提取）
```
https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py
```
  功能 4) : 詞性標注
  - 標注句子分詞后每個詞的詞性，采用和ictclas兼容的標記法
  - 用法示例
```
>>> import jieba.posseg as pseg
>>> words =pseg.cut("我愛北京天安門")
>>> for w in words:
...    print w.word,w.flag
...
我 r
愛 v
北京 ns
天安門 ns
```
  功能 5) : 并行分詞
  - 原理：將目標文本按行分隔后，把各行文本分配到多個python進程并行分詞，然后歸并結果，從而獲得分詞速度的可觀提升
  - 基于python自帶的multiprocessing模塊，目前暫不支持windows
  - 用法：
  - 例子： https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
  - 實驗結果：在4核3.4GHz Linux機器上，對金庸全集進行精確分詞，獲得了1MB/s的速度，是單進程版的3.3倍。
  功能 6) : Tokenize：返回詞語在原文的起始位置
  - 注意，輸入參數只接受unicode
  - 默認模式
```
result = jieba.tokenize(u'永和服裝飾品有限公司')
```
```
for tk in result:
```
```
    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])
```
```
word 永和                start: 0                end:2
word 服裝                start: 2                end:4
word 飾品                start: 4                end:6
word 有限公司            start: 6                end:10
```
  - 搜索模式
```
result = jieba.tokenize(u'永和服裝飾品有限公司',mode='search')
```
```
for tk in result:
```
```
    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])
```
```
word 永和                start: 0                end:2
word 服裝                start: 2                end:4
word 飾品                start: 4                end:6
word 有限                start: 6                end:8
word 公司                start: 8                end:10
word 有限公司            start: 6                end:10
```
  功能 7) : ChineseAnalyzer for Whoosh搜索引擎
  - 引用： from jieba.analyse import ChineseAnalyzer
  - 用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py
  其他詞典
  1. 占用內存較小的詞典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small
  2. 支持繁體分詞更好的詞典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big
  下載你所需要的詞典，然后覆蓋jieba/dict.txt 即可或者用jieba.set_dictionary('data/dict.txt.big')
  
  模塊初始化機制的改變:lazy load （從0.28版本開始）
  
  jieba采用延遲加載，"import jieba"不會立即觸發詞典的加載，一旦有必要才開始加載詞典構建trie。如果你想手工初始jieba，也可以手動初始化。
```
import jieba
jieba.initialize() #手動初始化（可選）
```
  在0.28之前的版本是不能指定主詞典的路徑的，有了延遲加載機制后，你可以改變主詞典的路徑:
```
jieba.set_dictionary('data/dict.txt.big')
```
  例子： https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py
  
  分詞速度
  - 1.5 MB / Second in Full Mode
  - 400 KB / Second in Default Mode
  - Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz；《圍城》.txt
  常見問題
  
  1）模型的數據是如何生成的？https://github.com/fxsjy/jieba/issues/7
  
  2）這個庫的授權是? https://github.com/fxsjy/jieba/issues/2
  
  更多問題請點擊：https://github.com/fxsjy/jieba/issues?sort=updated&state=closed
  
  本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。
  
  轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。
  
  本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！
  
  本文地址：http://www.baiduhome.net/news/view/3842a1
  
  中文分詞

結巴分詞 0.34 發布，Python 中文分詞組件

jieba

Feature

在線演示

Python 2.x 下的安裝

Python 3.x 下的安裝

Algorithm

功能 1)：分詞

相關資訊

相關經驗

相關文檔

結巴分詞 0.34 發布，Python 中文分詞組件

jieba

Feature

在線演示

Python 2.x 下的安裝

Python 3.x 下的安裝

Algorithm

功能 1)：分詞

功能 2) ：添加自定義詞典

功能 3) ：關鍵詞提取

功能 4) : 詞性標注

功能 5) : 并行分詞

功能 6) : Tokenize：返回詞語在原文的起始位置

功能 7) : ChineseAnalyzer for Whoosh搜索引擎

其他詞典

模塊初始化機制的改變:lazy load （從0.28版本開始）

分詞速度

常見問題

相關資訊

相關經驗

相關文檔