solr5.3.1 添加中文分詞之mmseg4j

jopen 8年前發布 | 11K 次閱讀 Solr 搜索引擎

1,下載對應jar包,并拷貝到sorl服務器的lib目錄底下

2,添加配置文件(在Solr的安裝部署及簡單使用已經有過介紹)

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="d:\solr\my_dic"/>
        </analyzer>
    </fieldtype>
     
    <fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
        </analyzer>
    </fieldtype>
     
    <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" />
        </analyzer>
    </fieldtype>

其中  dicPath="d:\solr\my_dic"  是我們指定的詞庫路徑,詞庫文件都在這個文件夾底下,并且名字要以words開頭,以dic做后綴,例如  words_my.dic。作為演示,在詞庫里添加

愛他美
高富帥

值得強調的是:這個詞典文件必須是utf-8格式的,否則無法識別。

3,重啟solr服務,進入管理界面

先試一下沒有添加自定義詞庫的效果,輸入文字:高富帥喜歡德國愛他美奶粉(使用textSimple)

再試一下添加了自定義詞庫的效果,還是上面的文字

明顯添加了自定義詞庫的顯示效果要比沒添加好很多

來自: http://my.oschina.net/u/238296/blog/598424

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!