Java 分布式中文分詞組件，word v1.3 發布

jopen 10年前發布 | 14K 次閱讀 word

word 分詞是一個Java實現的分布式的中文分詞組件，提供了多種基于詞典的分詞算法，并利用ngram模型來消除歧義。能準確識別英文、數字，以及日期、時間等數量詞，能識別人名、地名、組織機構名等未登錄詞。能通過自定義配置文件來改變組件行為，能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分布式環境，能靈活指定多種分詞算法，能使用refine功能靈活控制分詞結果，還能使用詞性標注、同義標注、反義標注、拼音標注等功能。同時還無縫和Lucene、 Solr、ElasticSearch、Luke集成。

word 1.3 新增了大量功能，如：詞頻統計、refine、詞性標注、同義標注、反義標注、拼音標注等，同時，新增了10種文本相似度算法，還新增了兩種分詞算法：最大Ngram分值算法和最少詞數算法，分詞速度也有了很大提升，還有很多其他的大大小小的優化，最后還支持當前最新的lucene5.2.1、 solr5.2.1和elasticsearch2.0.0-beta1。