ElasticSearch 安裝
大數據之elasticsearch集群搭建與基本使用-滲透人員入門
我也開始玩集群了,寫此文章來紀念
一、安裝手冊
第一步:安裝java 7(最低版本java 7)
第二步:安裝及配置elasticsearch(下載最新版)
wget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearch-1.5.1.tar.gz
tar zxvf elasticsearch-1.5.1.tar.gz
cd elasticsearch-1.5.1
修改二進制文件,指定JAVA_HOME
(1)elasticsearch
vim bin/elasticsearch
修改
JAVA_HOME=/usr/lib/jvm/jre-1.7.0-openjdk.x86_64(替換為實際的JAVA安裝目錄)
(2)plugin
vim bin/plugin
修改
JAVA_HOME=/usr/lib/jvm/jre-1.7.0-openjdk.x86_64(替換為實際的JAVA安裝目錄)
修改配置文件
vim config/elasticsearch.yml
做如下修改
cluster.name: elasticsearch-tanjiti 配置es的集群名稱,默認是elasticsearch,es會自動發現在同一網段下的es,如果在同一網段下有多個集群,就可以用這個屬性來區分不同的集群
node.name: "tanjiti No.00" 節點名,默認隨機指定一個name列表中名字,該列表在es的jar包中config文件夾里name.txt文件中,其中有很多作者添加的有趣名字。
index.number_of_shards: 3 設置默認索引分片個數,默認為5片。
path.logs: /home/elasticsearch-1.5.1/logs 設置日志文件的存儲路徑,默認是es根目錄下的logs文件夾
path.plugins: /home/elasticsearch-1.5.1/plugins設置插件的存放路徑,默認是es根目錄下的plugins文件夾
#bootstrap.mlockall: true 設置為true來鎖住內存。因為當jvm開始swapping時es的效率會降低,所以要保證它不swap,因為發現開啟這個選項會莫名的錯誤,所以選擇了關閉,依靠把ES_MIN_MEM和ES_MAX_MEM兩個環境變量設置成同一個足夠大的值來保證機器有足夠的內存分配給es。
transport.tcp.port: 9310 設置節點間交互的tcp端口,默認是9300。
http.port: 8765 設置對外服務的http端口,默認為9200
discovery.zen.ping.timeout: 30s 設置集群中自動發現其它節點時ping連接超時時間,默認為3秒,對于比較差的網絡環境可以高點的值來防止自動發現時出錯。
discovery.zen.ping.multicast.enabled: false 設置是否打開多播發現節點,默認是false,開啟單播模式
discovery.zen.ping.unicast.hosts: ["xxx.xxx.xxx.xxx", "xxx.xxx.xxx.xxx", "xxx.xxx.xxx.xxx"] 設置集群中master節點的初始列表,可以通過這些節點來自動發現新加入集群的節點
內存調整
vim bin/elasticsearch.in.sh
修改
if [ "x$ES_MIN_MEM" = "x" ]; then
ES_MIN_MEM=256m #調整為機器內存的一半
fi
if [ "x$ES_MAX_MEM" = "x" ]; then
ES_MAX_MEM=1g#調整為機器內存的一半
fi
第三步:下載并安裝插件 (插件非常多,以下列出我喜歡的,可以有選擇性的安裝)
(1) marvel
遠程安裝方式:
bin/plugin -i elasticsearch/marvel/latest
本地安裝方式:
wget https://download.elasticsearch.org/elasticsearch/marvel/marvel-latest.zip
bin/plugin -i marvel -u file:/home/elasticsearch-1.5.1/marvel-latest.zip
在啟動后,可以通過以下方式查看elasticsearch運行情況
http://xxx.xxx.xxx.xxx:8765/_plugin/marvel/
(2) elasticsearch service [非常喜歡]
https://github.com/elastic/elasticsearch-servicewrapper
將service文件放置在elasticsearch bin 目錄下
mv elasticsearch-servicewrapper-master/service/ bin/
配置bin/service/elasticsearch.conf
vim bin/service/elasticsearch.conf
按需作如下修改
set.default.ES_HOME=/home/elasticsearch-1.5.1 #替換為實際的elasticsearch路徑
wrapper.java.command=/usr/lib/jvm/jre-1.7.0-openjdk.x86_64/bin/java #替換為實際的java二進制文件路徑
(3). ElasticHQ [非常喜歡]
http://www.elastichq.org/
bin/plugin -i royrusso/elasticsearch-HQ -u file:/home/elasticsearch-1.5.1/royrusso-elasticsearch-HQ-603ae9e.zip
在啟動后,可以通過以下方式查看elasticsearch運行情況
http://xxx.xxx.xxx.xxx:8765/_plugin/HQ/
(4) elasticsearch-head [比較喜歡]
https://github.com/mobz/elasticsearch-head
bin/plugin -i mobz/elasticsearch-head -u file:/home/elasticsarch-1.5.1/elasticsearch-head-master.zip
在啟動后,可以通過以下方式查看elasticsearch運行情況
http://xxx.xxx.xxx.xxxx:8765/_plugin/head
第四步:啟動elasticsearch
bin/service/elasticsearch start|stop|console|install|remove
start 在后臺運行elasticsearch
stop 停止elasticsearch
console 在前臺運行elasticsearch
install elasticsearch自啟動
remove elasticsearch取消自啟動
二、基本操作
首先我們批量導入示例數據——莎士比亞全集
(參照http://kibana.logstash.es/content/v3/10-minute-walk-through.html kibana 3指南10分鐘入門
wget http://www.elasticsearch.org/guide/en/kibana/3.0/snippets/shakespeare.json
curl -XPUT http://localhost:8765/_bulk --data-binary @shakespeare.json
more shakespeare.json 察看存儲內容
{"index":{"_index":"shakespeare","_type":"act","_id":0}}
{"line_id":1,"play_name":"Henry IV","speech_number":"","line_number":"","speaker":"","text_entry":"ACT I"}
{"index":{"_index":"shakespeare","_type":"scene","_id":1}}
接下來我們來通過與熟悉的關系數據庫來對比elasticsearch的數據組成
(1)數據組成:元數據+實際數據
相當于察看數據庫的模式定義
http localhost:8765/shakespeare/
返回
{
"shakespeare": {
"mappings": {
"act": {
"properties": {
"line_id": {
"type": "long"
},
"line_number": {
"type": "string"
},
"play_name": {
"type": "string"
},
"speaker": {
"type": "string"
},
"speech_number": {
"type": "long"
},
"text_entry": {
"type": "string"
}
}
},
"line": {
"properties": {
"line_id": {
"type": "long"
},
"line_number": {
"type": "string"
},
"play_name": {
"type": "string"
},
"speaker": {
"type": "string"
},
"speech_number": {
"type": "long"
},
"text_entry": {
"type": "string"
}
}
},
"scene": {
"properties": {
"line_id": {
"type": "long"
},
"line_number": {
"type": "string"
},
"play_name": {
"type": "string"
},
"speaker": {
"type": "string"
},
"speech_number": {
"type": "long"
},
"text_entry": {
"type": "string"
}
}
}
},
"settings": {
"index": {
"creation_date": "1429691321987",
"number_of_replicas": "1",
"number_of_shards": "5",
"uuid": "rrCmsKKcSDyLSpLFVnQnbg",
"version": {
"created": "1040299"
}
}
}
}
}
我們用熟悉的關系數據庫來進行對比,映射關系如下
elasticsearch RDBS
indices 索引 databases數據庫
types 類型 tables表
documents文檔 rows行
fields 字段 columns列
示例中,索引名為shakespeare(等同于數據庫名為shakespeare)
類型有3個:act, line, scene (等同于表名為act, line, scene)
字段組成(等同于表的結構)
字段名 字段類型
line_id long
line_number string
play_name string
speaker string
speech_number long
text_entry string
(2)簡單檢索
示例1:通過index+type+文檔_id來察看內容
格式:host:port/index_name/type_name/_id
http localhost:8108/shakespeare/line/2
結果如下:
{
"_id": "2",
"_index": "shakespeare",
"_source": {
"line_id": 3,
"line_number": "",
"play_name": "Henry IV",
"speaker": "",
"speech_number": "",
"text_entry": "Enter KING HENRY, LORD JOHN OF LANCASTER, the EARL of WESTMORELAND, SIR WALTER BLUNT, and others"
},
"_type": "line",
"_version": 1,
"found": true
}
elasticsearch的數據由兩部分組成:文檔元數據(例如_id)與文檔數據
名字 說明
_index 類似RDBS的“數據庫”概念
_type 類似RDBS的“表”概念
_id 文檔的唯一編號
_source 字段里的內容為文檔數據(真實存儲的數據),我們可以使用如下方法只讀取實際數據
http localhost:8108/shakespeare/line/2/_source
結果如下:
{
"line_id": 3,
"line_number": "",
"play_name": "Henry IV",
"speaker": "",
"speech_number": "",
"text_entry": "Enter KING HENRY, LORD JOHN OF LANCASTER, the EARL of WESTMORELAND, SIR WALTER BLUNT, and others"
}
示例2:指定字段field進行搜索,例如搜索play_name字段為Romeo and Juliet
http localhost:8108/shakespeare/_search?q=play_name:"Romeo and Juliet"
結果如下(截取部分):
{
"_shards": {
"failed": 0,
"successful": 5,
"total": 5
},
"hits": {
"hits": [
{
"_id": "86748",
"_index": "shakespeare",
"_score": 3.3792284,
"_source": {
"line_id": 86749,
"line_number": "",
"play_name": "Romeo and Juliet",
"speaker": "JULIET",
"speech_number": 19,
"text_entry": "Exeunt"
},
"_type": "line"
},
(3)復雜搜索
Elasticsearch支持豐富而靈活的查詢語言——Query DSL。 在學習之前,我們可以先熟悉一下Lucene查詢語法(其實和使用google搜索引擎區別不大)
支持AND,OR,NOT
查詢語句"apache AND lucene"的意思是匹配含apache且含lucene的文檔。
查詢表達式"apache OR lucene"能夠匹配包含“apache”的文檔,也能匹配包含"lucene"的文檔,還能匹配同時包含這兩個Term的文檔。
查詢表達式“lucene NOT elasticsearch”就只能匹配包含lucene但是不含elasticsearch的文檔
支持+, -符號
例如:希望搜索到包含關鍵詞lucene,但是不含關鍵詞elasticsearch的文檔,可以用如下的查詢表達式:"+lucene -elasticsearch"。
支持指定字段名進行搜索(類似RDBS按列名搜索)
例如:查詢title域中包含關鍵詞elasticsearch的文檔,查詢表達式如下:title:elasticsearch
支持通配符
? (匹配單個字符)
* (匹配多個字符)
注意默認的通配符不能是關鍵詞的首字母
支持~整數符號
一個~符號,后面緊跟一個整數,~后面的整數表示短語中可接收的最大的詞編輯距離(短語中替換一個詞,添加一個詞,刪除一個詞)
"writer~2"能夠搜索到含writer和writers的文檔。
title:"mastering elasticsearch"~2能夠搜匹配title域中含"mastering elasticsearch"的文檔與包含"mastering book elasticsearch"的文檔
支持^符號進行加權boost設置
一個^符號后面接一個浮點數表示權重。如果權重小于1,就會降低關鍵詞的重要程度。同理,如果權重大于1就會增加關鍵詞的重要程度。默認的加權值為1
支持區間搜索
price:[10.00 TO 15.00查詢price域的值在10.00到15.00之間的所有文檔。
price:[10.00 TO 15.00}查詢price域中價格在10.00(10.00要能夠被搜索到)到15.00(15.00不能被搜索到)之間的文檔
特殊字符需轉義
+, -, &&, || , ! , (,) , { } , [ ] , ^, " , ~, *, ?, : , \, /
更多,Lucene原理 (打分算法,TF-IDF算法一定會在搜索中出境)
我們可以看到elasticsearch支持豐富的數據查詢方式,結果展示方式(按什么方式來排序結果,使用什么圖形來展示統計結果)
(1)關鍵詞查詢term
(2)短語查詢phrase
(3)區間range
(4)布爾Boolean
(5)模糊fuzzy
(6)跨度span
(7)通配符wildcard
(8)地理位置spatial
(9) 統計aggregation ——這個功能非常非常贊,比如說生成各種統計圖表
(10)prospective search
搜索語句支持通過URI提交(上面的例子演示的_search?q= 注意,使用這種方式的要遵循url編碼,官方參考) ,也支持通過request body提交,簡直就是HTTP RESTFULL最佳實踐,官方參考
我們用熟悉的SQL語句來對比
實例1:
curl -XPOST 'http://localhost:8108/shakespeare/line/_search?pretty' -d '
{
"query":{ "match_all": {} },
"sort": {"line_id": {"order": "desc" }},
"size": 1,
"from": 10
}'
等同于
use shakespeare;
select *
from line
order by line_id desc
limit 10,1
實例2:
curl -XPOST 'http://localhost:8108/shakespeare/line/_search?pretty' -d '
{
"query":{
"bool":{
"must":[
{"match_phrase": {"text_entry":"question"}},
{"match_phrase": {"text_entry":"not to be"}}
]
}
}
}'
結果
"took" : 253,
"timed_out" : false,
"_shards" : {
"total" : 3,
"successful" : 3,
"failed" : 0
},
"hits" : {
"total" : 2,
"max_score" : 4.0433946,
"hits" : [ {
"_index" : "shakespeare",
"_type" : "line",
"_id" : "34229",
"_score" : 4.0433946,
"_source":{"line_id":34230,"play_name":"Hamlet","speech_number":19,"line_number":"3.1.64","speaker":"HAMLET","text_entry":"To be, or not to be: that is the question:"}
}, {
"_index" : "shakespeare",
"_type" : "line",
"_id" : "1397",
"_score" : 4.0004296,
"_source":{"line_id":1398,"play_name":"Henry IV","speech_number":152,"line_number":"2.4.392","speaker":"FALSTAFF","text_entry":"blackberries? a question not to be asked. Shall"}
} ]
}
}
等同于
use shakespeare;
select *
from line
where text_entry like "%question%" and text_entry like "%not to be%"
Search APIs
Match Query APIs
三、更多的細節
1. 主要配置詳解
默認配置 含義
cluster.name: elasticsearch 配置es的集群名稱,默認是elasticsearch,es會自動發現在同一網段下的es,如果在同一網段下有多個集群,就可以用這個屬性來區分不同的集群。
node.name: "Franz Kafka" 節點名,默認隨機指定一個name列表中名字,該列表在es的jar包中config文件夾里name.txt文件中,其中有很多作者添加的有趣名字。
node.master: true 指定該節點是否有資格被選舉成為master node,默認是true,es默認集群中的第一臺機器為master,如果這臺機掛了就會重新選舉master。
node.data: true 指定該節點是否存儲索引數據,默認為true。
index.number_of_shards: 5 設置默認索引分片個數,默認為5片。
index.number_of_replicas: 1 設置默認索引副本個數,默認為1個副本。
path.conf: /path/to/conf 設置配置文件的存儲路徑,默認是es根目錄下的config文件夾。
path.data: /path/to/data 設置索引數據的存儲路徑,默認是es根目錄下的data文件夾,可以設置多個存儲路徑,用逗號隔開,例:
path.data: /path/to/data1,/path/to/data2
path.work: /path/to/work 設置臨時文件的存儲路徑,默認是es根目錄下的work文件夾。
path.logs: /path/to/logs 設置日志文件的存儲路徑,默認是es根目錄下的logs文件夾
path.plugins: /path/to/plugins 設置插件的存放路徑,默認是es根目錄下的plugins文件夾
bootstrap.mlockall: true 設置為true來鎖住內存。因為當jvm開始swapping時es的效率會降低,所以要保證它不swap,可以把ES_MIN_MEM和ES_MAX_MEM兩個環境變量設置成同一個值,并且保證機器有足夠的內存分配給es。同時也要允許elasticsearch的進程可以鎖住內存,linux下可以通過`ulimit -l unlimited`命令。
network.bind_host: 192.168.0.1 設置綁定的ip地址,可以是ipv4或ipv6的,默認為192.168.0.1。
network.publish_host: 192.168.0.1 設置其它節點和該節點交互的ip地址,如果不設置它會自動判斷,值必須是個真實的ip地址。
network.host: 192.168.0.1 這個參數是用來同時設置bind_host和publish_host上面兩個參數。
transport.tcp.port: 9300 設置節點間交互的tcp端口,默認是9300。
transport.tcp.compress: true 設置是否壓縮tcp傳輸時的數據,默認為true,壓縮。
http.port: 9200 設置對外服務的http端口,默認為9200。
http.max_content_length: 100mb 設置內容的最大容量,默認100mb
http.enabled: false 是否使用http協議對外提供服務,默認為false,不開啟。
gateway.type: local gateway的類型,默認為local即為本地文件系統,可以設置為本地文件系統,分布式文件系統,hadoop的HDFS,和amazon的s3服務器等。
gateway.recover_after_nodes: 1 設置集群中N個節點啟動時進行數據恢復,默認為1。
gateway.recover_after_time: 5m 設置初始化數據恢復進程的超時時間,默認是5分鐘。
gateway.expected_nodes: 2 設置這個集群中節點的數量,默認為2,一旦這N個節點啟動,就會立即進行數據恢復。
cluster.routing.allocation.node_initial_primaries_recoveries: 4 初始化數據恢復時,并發恢復線程的個數,默認為4。
cluster.routing.allocation.node_concurrent_recoveries: 2 添加刪除節點或負載均衡時并發恢復線程的個數,默認為2。
indices.recovery.max_size_per_sec: 0 設置數據恢復時限制的帶寬,如入100mb,默認為0,即無限制。
indices.recovery.concurrent_streams: 5 設置這個參數來限制從其它分片恢復數據時最大同時打開并發流的個數,默認為5。
discovery.zen.minimum_master_nodes: 1 設置這個參數來保證集群中的節點可以知道其它N個有master資格的節點。默認為1,對于大的集群來說,可以設置大一點的值(2-4)
discovery.zen.ping.timeout: 3s 設置集群中自動發現其它節點時ping連接超時時間,默認為3秒,對于比較差的網絡環境可以高點的值來防止自動發現時出錯。
discovery.zen.ping.multicast.enabled: false 設置是否打開多播發現節點,默認是false。
discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3[portX-portY]"] 設置集群中master節點的初始列表,可以通過這些節點來自動發現新加入集群的節點。
index.search.slowlog.level: TRACE
index.search.slowlog.threshold.query.warn: 10s
index.search.slowlog.threshold.query.info: 5s
index.search.slowlog.threshold.query.debug: 2s
index.search.slowlog.threshold.query.trace: 500ms
index.search.slowlog.threshold.fetch.warn: 1s
index.search.slowlog.threshold.fetch.info: 800ms
index.search.slowlog.threshold.fetch.debug:500ms
index.search.slowlog.threshold.fetch.trace: 200ms
查詢時的慢日志
來自: http://danqingdani.blog.163.com/blog/static/1860941952015315104819711/