Elasticsearch 中文分詞插件 jcseg 安裝 (Ubuntu 14.04 下)

jopen 9年前發布 | 34K 次閱讀 ElasticSearch 搜索引擎

  Jcseg 作為國內知名的開源的中文分詞器,對于中文分詞有其獨有的特點, 對于 elasticsearch 這一不錯的文檔檢索引擎來說 Elasticsearch + Jcseg 這個組合,在處理中文檢索上,可以說是黃金搭檔啊!!最重要的是:方便,簡單,易用,功能強大!!

搜索可以說是開發中很常見的場景了,同樣這次也一樣。。。

之前的組合多數是選擇 Mysql + Sphinx ,這次因為工作原因不再使用這種組合,雖然是老牌組合,但是確實限制諸多,而且每次配環境也是個問題,挺煩的。。。這次就嘗試使用 Elasticsearch + Jcseg ,因為在文檔檢索方面 elasticsearch 做的相當不錯,但是對中文環境來說就差一個很好的中文分詞器,還好,國內好的中文分詞器也有蠻多,但是我個人還是比較推薦 Jcseg 。

好了,廢話不多扯。

版本說明:

elasticsearch 我使用的是 1.7.2 的,不過 1.7.3 對下面這個過程來說也是可行的。

jcseg 是需要 1.9.6 的版本

######------------------------------------------------------------------------------------------------------------------------#####

首先是 elasticsearch 的安裝,這個比較方便,照著官方文檔來就OK了。

參考地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/setup-service.html

1,安裝 elasticsearch 

#> wget  https://download.elastic.co/elasticsearch/elasticsearch/elasticsearch-1.7.2.deb

#> sudo dpkg -i elasticsearch-1.7.2.deb

#> sudo update-rc.d elasticsearch defaults 95 10

#> sudo service elasticsearch start

然后是下載 jcseg 的相關 jar 包,為后續配置做準備。

下載地址:http://git.oschina.net/lionsoul/elasticsearch-jcseg

2,下載 jcseg

#> git clone http://git.oschina.net/lionsoul/elasticsearch-jcseg

最后就是把 jcseg 配置成 elasticsearch 的一個分詞插件,然后指定 jcseg 為默認分詞器,重啟 elasticsearch 就OK了。

參考文檔:http://git.oschina.net/lionsoul/jcseg   (這里有個 pdf 文檔,可以參考一下)

3,配置 elasticsearch

#> cd  /usr/share/elasticsearch/plugins   (這是上面安裝完成 elasticsearch 后,它的插件目錄所在)

#> mkdir analysis-jcseg   (創建 jcseg jar 包 及 詞庫 放置目錄)

#> cd elasticsearch-jcseg/   (來到 elasticsearch-jcseg 目錄下,這里有我們需要的 jar 文件等)

#> sudo  cp  -r  plugins/analysis-jcseg/*  /usr/share/elasticsearch/plugins/analysis-jcseg/    (復制需要的 jar 包以及 jcseg 詞庫文件,詞庫文件很重要,后期可以根據你自己業務需要擴展詞庫,達到更高的分詞準確率)

#############  開始修改 elasticsearch 的配置文件,設置分詞器使用 jcseg ##########

拷貝 elasticsearch-jcseg 下的 config/jcseg/ 整個目錄到 elasticsearch 的配置文件目錄下(/etc/elasticsearch/)

#> sudo cp  -r  config/jcseg  /etc/elasticsearch/

在 elasticsearch 的文件末尾增加如下配置項:(該配置項在 elasticsearch-jcseg/config/elasticsearch.yml 里

#> sudo  vim  /etc/elasticsearch/elasticsearch.yml 

添加配置項:

Elasticsearch 中文分詞插件 jcseg 安裝 (Ubuntu 14.04 下)

然后,重啟 elasticsearch

#> sudo  service  elasticsearch restart

然后就可以在瀏覽器里輸入測試了,如下:

Elasticsearch 中文分詞插件 jcseg 安裝 (Ubuntu 14.04 下)

當然了,你得先有個 索引,我這里的測試例子是 blog,建立方法也很簡單,如下:

#> curl  -XPUT  http:localhost:9200/blog

######------------------------------------------------------------------------------------------------------------------------#####

以上就是把 jcseg 作為 elasticsearch 的中文分詞插件的環境配置方法,剩下的就是 elasticsearch 和 jcseg 的事情了, 可以分別研究它們的相關用法,靈活的在項目中使用就OK了!

來自:http://my.oschina.net/u/1156660/blog/521326

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!