solr5.3.1 添加中文分詞之mmseg4j
1,下載對應jar包,并拷貝到sorl服務器的lib目錄底下
2,添加配置文件(在Solr的安裝部署及簡單使用已經有過介紹)
<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="d:\solr\my_dic"/> </analyzer> </fieldtype> <fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /> </analyzer> </fieldtype> <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" /> </analyzer> </fieldtype>
其中 dicPath="d:\solr\my_dic" 是我們指定的詞庫路徑,詞庫文件都在這個文件夾底下,并且名字要以words開頭,以dic做后綴,例如 words_my.dic。作為演示,在詞庫里添加
愛他美 高富帥
值得強調的是:這個詞典文件必須是utf-8格式的,否則無法識別。
3,重啟solr服務,進入管理界面
先試一下沒有添加自定義詞庫的效果,輸入文字:高富帥喜歡德國愛他美奶粉(使用textSimple)
再試一下添加了自定義詞庫的效果,還是上面的文字
明顯添加了自定義詞庫的顯示效果要比沒添加好很多
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!