Python 中文分詞庫 snailseg
snailseg
Chinese Words Segment Library in Python 簡單的中文分詞庫
在線分詞效果展示 https://snailsegdemo.appspot.com/
Usage
- 將snailseg目錄放置于當前目錄或者site-packages目錄
- import snailseg
代碼示例
import snailseg
words = snailseg.cut("南京市長江大橋")
for w in words:
print w
Algorithm
- 算法是統計單字在詞語中出現位置的概率大小,選擇最大可能的分詞方案
- 算法簡單,只有100行純Python代碼
Performance
- 700 KB/Second
- Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《圍城》.txt
Example
Sentences:
cuttest("這是一個伸手不見五指的黑夜。我叫孫悟空,我愛北京,我愛Python和C++。")
cuttest("我不喜歡日本和服")
cuttest("雷猴回歸人間")
cuttest("我需要廉租房")
cuttest("永和服裝飾品有限公司")
cuttest("我愛北京天安門")
cuttest("abc")
cuttest("隱馬爾可夫")
cuttest("雷猴是個好網站")
cuttest("“Microsoft”一詞由“MICROcomputer(微型計算機)”和“SOFTware(軟件)”兩部分組成")
cuttest("草泥馬和欺實馬是今年的流行詞匯")
cuttest("伊藤洋華堂總府店")
cuttest("中國科學院計算技術研究所")
cuttest("羅密歐與朱麗葉 Hahaha")
cuttest("新生小鼠中肌紅蛋白含量較成年鼠高嗎?")
cuttest("南京市長江大橋")
cuttest("乒乓球拍賣完了")
cuttest("大")
cuttest("")
Efect:
這是 / 一個 / 伸手 / 不見 / 五指 / 的 / 黑夜 / 我 / 叫 / 孫悟空 / 我愛 / 北京 /
我愛 / Python / 和 / C++ /
我 / 不 / 喜歡 / 日本 / 和服 /
雷 / 猴 / 回歸 / 人間 /
我 / 需要 / 廉租 / 房 /
永和 / 服裝 / 飾品 / 有限 / 公司 /
我愛 / 北京 / 天安 / 門 /
abc /
隱 / 馬爾 / 可夫 /
雷 / 猴 / 是 / 個 / 好網 / 站 /
Microsoft / 一 / 詞 / 由 / MICROcomputer / 微型 / 計算機 / 和 / SOFTware / 軟件
/ 兩部 / 分組 / 成 /
草泥馬 / 和 / 欺 / 實 / 馬 / 是 / 今年 / 的 / 流行 / 詞匯 /
伊藤 / 洋華堂 / 總府 / 店 /
中國 / 科學院 / 計算 / 技術 / 研究 / 所 /
羅密 / 歐 / 與 / 朱麗 / 葉 / Hahaha /
新生 / 小鼠 / 中 / 肌 / 紅蛋 / 白 / 含量 / 較 / 成年 / 鼠 / 高 / 嗎 /
南京市 / 長江 / 大橋 /
乒乓 / 球拍 / 賣 / 完了 /
大 /
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!