Elasticsearch 中文分詞插件 jcseg 安裝 (Ubuntu 14.04 下)
Jcseg 作為國內知名的開源的中文分詞器,對于中文分詞有其獨有的特點, 對于 elasticsearch 這一不錯的文檔檢索引擎來說 Elasticsearch + Jcseg 這個組合,在處理中文檢索上,可以說是黃金搭檔啊!!最重要的是:方便,簡單,易用,功能強大!!
搜索可以說是開發中很常見的場景了,同樣這次也一樣。。。
之前的組合多數是選擇 Mysql + Sphinx ,這次因為工作原因不再使用這種組合,雖然是老牌組合,但是確實限制諸多,而且每次配環境也是個問題,挺煩的。。。這次就嘗試使用 Elasticsearch + Jcseg ,因為在文檔檢索方面 elasticsearch 做的相當不錯,但是對中文環境來說就差一個很好的中文分詞器,還好,國內好的中文分詞器也有蠻多,但是我個人還是比較推薦 Jcseg 。
好了,廢話不多扯。
版本說明:
elasticsearch 我使用的是 1.7.2 的,不過 1.7.3 對下面這個過程來說也是可行的。
jcseg 是需要 1.9.6 的版本
######------------------------------------------------------------------------------------------------------------------------#####
首先是 elasticsearch 的安裝,這個比較方便,照著官方文檔來就OK了。
參考地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/setup-service.html
1,安裝 elasticsearch
#> wget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearch-1.7.2.deb
#> sudo dpkg -i elasticsearch-1.7.2.deb
#> sudo update-rc.d elasticsearch defaults 95 10
#> sudo service elasticsearch start
然后是下載 jcseg 的相關 jar 包,為后續配置做準備。
下載地址:http://git.oschina.net/lionsoul/elasticsearch-jcseg
2,下載 jcseg
#> git clone http://git.oschina.net/lionsoul/elasticsearch-jcseg
最后就是把 jcseg 配置成 elasticsearch 的一個分詞插件,然后指定 jcseg 為默認分詞器,重啟 elasticsearch 就OK了。
參考文檔:http://git.oschina.net/lionsoul/jcseg (這里有個 pdf 文檔,可以參考一下)
3,配置 elasticsearch
#> cd /usr/share/elasticsearch/plugins (這是上面安裝完成 elasticsearch 后,它的插件目錄所在)
#> mkdir analysis-jcseg (創建 jcseg jar 包 及 詞庫 放置目錄)
#> cd elasticsearch-jcseg/ (來到 elasticsearch-jcseg 目錄下,這里有我們需要的 jar 文件等)
#> sudo cp -r plugins/analysis-jcseg/* /usr/share/elasticsearch/plugins/analysis-jcseg/ (復制需要的 jar 包以及 jcseg 詞庫文件,詞庫文件很重要,后期可以根據你自己業務需要擴展詞庫,達到更高的分詞準確率)
############# 開始修改 elasticsearch 的配置文件,設置分詞器使用 jcseg ##########
拷貝 elasticsearch-jcseg 下的 config/jcseg/ 整個目錄到 elasticsearch 的配置文件目錄下(/etc/elasticsearch/)
#> sudo cp -r config/jcseg /etc/elasticsearch/
在 elasticsearch 的文件末尾增加如下配置項:(該配置項在 elasticsearch-jcseg/config/elasticsearch.yml 里)
#> sudo vim /etc/elasticsearch/elasticsearch.yml
添加配置項:
然后,重啟 elasticsearch
#> sudo service elasticsearch restart
然后就可以在瀏覽器里輸入測試了,如下:
當然了,你得先有個 索引,我這里的測試例子是 blog,建立方法也很簡單,如下:
#> curl -XPUT http:localhost:9200/blog
######------------------------------------------------------------------------------------------------------------------------#####
以上就是把 jcseg 作為 elasticsearch 的中文分詞插件的環境配置方法,剩下的就是 elasticsearch 和 jcseg 的事情了, 可以分別研究它們的相關用法,靈活的在項目中使用就OK了!
來自:http://my.oschina.net/u/1156660/blog/521326