基于HMM模型的中文分詞：finalseg

jopen 13年前發布 | 39K 次閱讀中文分詞

finalseg -> Chinese Words Segment Library in Python based on HMM Model 基于HMM模型的中文分詞

用法

將finalseg目錄放置于當前目錄或者site-packages目錄
import finalseg

代碼示例

import finalseg

sentence_list = [
"姚晨和老凌離婚了",
"他說的確實在理",
"長春市長春節講話"
]

print u"=默認效果"

for sentence in sentence_list:
    seg_list = finalseg.cut(sentence)
    print "/ ".join(seg_list)

print u"\n=打開新詞發現功能后的效果\n"


for sentence in sentence_list:
    seg_list = finalseg.cut(sentence,find_new_word=True)
    print "/ ".join(seg_list)

算法

算法是基于HMM模型,采用了Viterbi算法
可以選擇是否打開新詞發現功能
算法簡單，只有89行純Python代碼 https://github.com/fxsjy/finalseg/blob/master/finalseg/__init__.py

性能

200 KB/Second
Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz；《圍城》.txt

例子

在線分詞效果展示 https://finalseg.appspot.com/ (需國內或許不能訪問)

項目主頁：http://www.baiduhome.net/lib/view/home/1348294552183

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1348294552183.html

相關經驗

相關資訊

相關文檔