Python 中文分詞庫“Yaha

jopen 12年前發布 | 22K 次閱讀 Python 中文分詞

"啞哈"中文分詞，更快或更準確，由你來定義。通過簡單定制，讓分詞模塊更適用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha

基本功能：

精確模式，將句子切成最合理的詞。
全模式，所有的可能詞都被切成詞，不消除歧義。
搜索引擎模式，在精確的基礎上再次驛長詞進行切分，提高召回率，適合搜索引擎創建索引。
備選路徑，可生成最好的多條切詞路徑，可在此基礎上根據其它信息得到更精確的分詞模式。

可用插件：

正則表達式插件
人名前綴插件
地名后綴插件
定制功能。分詞過程產生4種階段，每個階段都可以加入個人的定制。

附加功能：

新詞學習功能。通過輸入大段文字，學習到此內容產生的新老詞語。
獲取大段文本的關鍵字。
獲取大段文本的摘要。
支持用戶自定義詞典

Algorithm

核心是基于查找句子的最大概率路徑來進行分詞。
保證效率的基礎上，對分詞的各個階段進行定義，方便用戶添加屬于自己的分詞方法(默認有正則，前綴名字與后綴地名)。
用戶可自定義使用動態規劃或Dijdstra算法得到最優的一條或多條路徑，再次可根據詞性(中科大ictclas的作法)等其它信息得獲得最優路徑。
使用“最大熵”算法來實現對大文本的新詞發現能力，很適合使用它來創建自定義詞典，或在SNS等場合進行數據挖掘的工作。
相比已存在的結巴分詞，去掉了很消耗內存的Trie樹結構，以及新詞發現能力并不強的HMM模型(未來此模型可能當成一個備選插件加入到此模塊)。

項目主頁：http://www.baiduhome.net/lib/view/home/1376920089772

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1376920089772.html

Python 中文分詞

相關經驗

相關資訊

相關文檔