Java 分布式中文分詞組件,word v1.3 發布
word 分詞是一個Java實現的分布式的中文分詞組件,提供了多種基于詞典的分詞算法,并利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。能通過自定義配置文件來改變組件行為,能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分布式環境,能靈活指定多種分詞算法,能使用refine功能靈活控制分詞結果,還能使用詞性標注、同義標注、反義標注、拼音標注等功能。同時還無縫和Lucene、 Solr、ElasticSearch、Luke集成。
word 1.3 新增了大量功能,如:詞頻統計、refine、詞性標注、同義標注、反義標注、拼音標注等,同時,新增了10種文本相似度算法,還新增了兩種分詞算法:最大Ngram分值算法和最少詞數算法,分詞速度也有了很大提升,還有很多其他的大大小小的優化,最后還支持當前最新的lucene5.2.1、 solr5.2.1和elasticsearch2.0.0-beta1。
word 分詞的分詞效果怎么樣?請看:Java開源項目cws_evaluation:中文分詞器分詞效果評估
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!