mmseg4j用Chih-Hao Tsai 的MMSeg算法實現的中文分詞器,并實現lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。MMSeg 算法有兩種分詞方法:Simple和Complex,都是基于正向最大匹配。Complex加了四個規則過慮。官方說:詞語的正確識別率達到了98.41%。mmseg4j已經實現了這兩種分詞算法。
本文由用戶 碼頭工人自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!