Java 分布式中文分詞組件,word v1.3.1 發布

jopen 9年前發布 | 13K 次閱讀 word

word 分詞是一個Java實現的分布式的中文分詞組件,提供了多種基于詞典的分詞算法,并利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。能通過自定義配置文件來改變組件行為,能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分布式環境,能靈活指定多種分詞算法,能使用refine功能靈活控制分詞結果,還能使用詞性標注、同義標注、反義標注、拼音標注等功能。同時還無縫和Lucene、 Solr、ElasticSearch、Luke集成。

word 1.3.1這個版本是從代碼分支ForElasticsearch1.7.2中編譯出來的,主要目的是支持與lucene4.10.4、solr4.10.4和elasticsearch1.7.2兼容的版本。

word 分詞的分詞效果怎么樣?請看:Java開源項目cws_evaluation:中文分詞器分詞效果評估

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!