Python 中文分詞庫“Yaha

jopen 11年前發布 | 22K 次閱讀 Python 中文分詞

"啞哈"中文分詞,更快或更準確,由你來定義。通過簡單定制,讓分詞模塊更適用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha

基本功能:

  • 精確模式,將句子切成最合理的詞。
  • 全模式,所有的可能詞都被切成詞,不消除歧義。
  • 搜索引擎模式,在精確的基礎上再次驛長詞進行切分,提高召回率,適合搜索引擎創建索引。
  • 備選路徑,可生成最好的多條切詞路徑,可在此基礎上根據其它信息得到更精確的分詞模式。

可用插件:

  • 正則表達式插件
  • 人名前綴插件
  • 地名后綴插件
  • 定制功能。分詞過程產生4種階段,每個階段都可以加入個人的定制。

附加功能:

  • 新詞學習功能。通過輸入大段文字,學習到此內容產生的新老詞語。
  • 獲取大段文本的關鍵字。
  • 獲取大段文本的摘要。
  • 支持用戶自定義詞典

Algorithm

  • 核心是基于查找句子的最大概率路徑來進行分詞。
  • 保證效率的基礎上,對分詞的各個階段進行定義,方便用戶添加屬于自己的分詞方法(默認有正則,前綴名字與后綴地名)。
  • 用戶可自定義使用動態規劃或Dijdstra算法得到最優的一條或多條路徑,再次可根據詞性(中科大ictclas的作法)等其它信息得獲得最優路徑。
  • 使用“最大熵”算法來實現對大文本的新詞發現能力,很適合使用它來創建自定義詞典,或在SNS等場合進行數據挖掘的工作。
  • 相比已存在的結巴分詞,去掉了很消耗內存的Trie樹結構,以及新詞發現能力并不強的HMM模型(未來此模型可能當成一個備選插件加入到此模塊)。

項目主頁:http://www.baiduhome.net/lib/view/home/1376920089772

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!