mmseg4j - 中文分詞類庫 - 組件類庫

mmseg4j用Chih-Hao Tsai 的MMSeg算法實現的中文分詞器，并實現lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。MMSeg 算法有兩種分詞方法：Simple和Complex，都是基于正向最大匹配。Complex加了四個規則過慮。官方說：詞語的正確識別率達到了98.41%。mmseg4j已經實現了這兩種分詞算法。

本文由用戶碼頭工人自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/project/5041489985915302862.html

中文分詞類庫

mmseg4j版本：

相關項目

相關經驗

相關資訊

相關文檔

目錄