基于HMM模型的中文分詞:finalseg
finalseg -> Chinese Words Segment Library in Python based on HMM Model 基于HMM模型的中文分詞
用法
- 將finalseg目錄放置于當前目錄或者site-packages目錄
- import finalseg
代碼示例
import finalseg
sentence_list = [
"姚晨和老凌離婚了",
"他說的確實在理",
"長春市長春節講話"
]
print u"=默認效果"
for sentence in sentence_list:
seg_list = finalseg.cut(sentence)
print "/ ".join(seg_list)
print u"\n=打開新詞發現功能后的效果\n"
for sentence in sentence_list:
seg_list = finalseg.cut(sentence,find_new_word=True)
print "/ ".join(seg_list)
算法
- 算法是基于HMM模型,采用了Viterbi算法
- 可以選擇是否打開新詞發現功能
- 算法簡單,只有89行純Python代碼 https://github.com/fxsjy/finalseg/blob/master/finalseg/__init__.py
性能
- 200 KB/Second
- Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《圍城》.txt
例子
- 在線分詞效果展示 https://finalseg.appspot.com/ (需國內或許不能訪問)
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!