Elasticsearch學習筆記

jopen 9年前發布 | 139K 次閱讀 ElasticSearch 搜索引擎

Why Elasticsearch?

由于需要提升項目的搜索質量,最近研究了一下Elasticsearch,一款非常優秀的分布式搜索程序。最開始的一些筆記放到github,這里只是歸納總結一下。

首先,為什么要使用Elasticsearch?最開始的時候,我們的項目僅僅使用MySQL進行簡單的搜索,然后一個不能索引的like語句,直接拉低MySQL的性能。后來,我們曾考慮過sphinx,并且sphinx也在之前的項目中成功實施過,但想想現在的數據量級,多臺MySQL,以及搜索服務本身HA,還有后續擴容的問題,我們覺得sphinx并不是一個最優的選擇。于是自然將目光放到了Elasticsearch上面。

根據官網自己的介紹,Elasticsearch是一個分布式搜索服務,提供Restful API,底層基于Lucene,采用多shard的方式保證數據安全,并且提供自動resharding的功能,加之github等大型的站點也采用 Elasticsearch作為其搜索服務,我們決定在項目中使用Elasticsearch。

對于Elasticsearch,如果要在項目中使用,需要解決如下問題:

  1. 索引,對于需要搜索的數據,如何建立合適的索引,還需要根據特定的語言使用不同的analyzer等。
  2. 搜索,Elasticsearch提供了非常強大的搜索功能,如何寫出高效的搜索語句?
  3. 數據源,我們所有的數據是存放到MySQL的,MySQL是唯一數據源,如何將MySQL的數據導入到Elasticsearch?
  4. </ol>

    對于1和2,因為我們的數據都是從MySQL生成,index的field是固定的,主要做的工作就是根據業務場景設計好對應的mapping以及search語句就可以了,當然實際不可能這么簡單,需要我們不斷的調優。

    而對于3,則是需要一個工具將MySQL的數據導入Elasticsearch,因為我們對搜索實時性要求很高,所以需要將MySQL的增量數據實時導入,筆者唯一能想到的就是通過row based binlog來完成。而近段時間的工作,也就是實現一個MySQL增量同步到Elasticsearch的服務。

    Lucene

    Elasticsearch底層是基于Lucene的,Lucene是一款優秀的搜索lib,當然,筆者以前仍然沒有接觸使用過。:-)

    Lucene關鍵概念:

    • Document:用來索引和搜索的主要數據源,包含一個或者多個Field,而這些Field則包含我們跟Lucene交互的數據。
    • Field:Document的一個組成部分,有兩個部分組成,name和value。
    • Term:不可分割的單詞,搜索最小單元。
    • Token:一個Term呈現方式,包含這個Term的內容,在文檔中的起始位置,以及類型。
    • </ul>

      Lucene使用Inverted index來存儲term在document中位置的映射關系。
      譬如如下文檔:

      • Elasticsearch Server 1.0 (document 1)
      • Mastring Elasticsearch (document 2)
      • Apache Solr 4 Cookbook (document 3)
      • </ul>

        使用inverted index存儲,一個簡單地映射關系:

        </tr> </tbody>

        </tr>

        </tr>

        </tr>

        </tr>

        </tr>

        </tr>

        </tr>

        </tr> </tbody> </table>

        對于上面例子,我們首先通過分詞算法將一個文檔切分成一個一個的token,再得到該token與document的映射關系,并記錄token出現的總次數。這樣就得到了一個簡單的inverted index。

        Elasticsearch關鍵概念

        要使用Elasticsearch,筆者認為,只需要理解幾個基本概念就可以了。

        在數據層面,主要有:

        • Index:Elasticsearch用來存儲數據的邏輯區域,它類似于關系型數據庫中的db概念。一個index可以在一個或者多個shard上面,同時一個shard也可能會有多個replicas。
        • Document:Elasticsearch里面存儲的實體數據,類似于關系數據中一個table里面的一行數據。
          document由多個field組成,不同的document里面同名的field一定具有相同的類型。document里面field可以重復出現,也就是一個field會有多個值,即multivalued。
        • Document type:為了查詢需要,一個index可能會有多種document,也就是document type,但需要注意,不同document里面同名的field一定要是相同類型的。
        • Mapping:存儲field的相關映射信息,不同document type會有不同的mapping。
        • </ul>

          對于熟悉MySQL的童鞋,我們只需要大概認為Index就是一個db,document就是一行數據,field就是table的column,mapping就是table的定義,而document type就是一個table就可以了。

          Document type這個概念其實最開始也把筆者給弄糊涂了,其實它就是為了更好的查詢,舉個簡單的例子,一個index,可能一部分數據我們想使用一種查詢方式,而另一部分數據我們想使用另一種查詢方式,于是就有了兩種type了。不過這種情況應該在我們的項目中不會出現,所以通常一個index下面僅會有一個 type。

          在服務層面,主要有:

          • Node: 一個server實例。
          • Cluster:多個node組成cluster。
          • Shard:數據分片,一個index可能會存在于多個shards,不同shards可能在不同nodes。
          • Replica:shard的備份,有一個primary shard,其余的叫做replica shards。
          • </ul>

            Elasticsearch之所以能動態resharding,主要在于它最開始就預先分配了多個shards(貌似是1024),然后以shard為單位進行數據遷移。這個做法其實在分布式領域非常的普遍,codis就是使用了1024個slot來進行數據遷移。

            因為任意一個index都可配置多個replica,通過冗余備份的方式保證了數據的安全性,同時replica也能分擔讀壓力,類似于MySQL中的slave。

            Restful API

            Elasticsearch提供了Restful API,使用json格式,這使得它非常利于與外部交互,雖然Elasticsearch的客戶端很多,但筆者仍然很容易的就寫出了一個簡易客戶端用于項目中,再次印證了Elasticsearch的使用真心很容易。

            Restful的接口很簡單,一個url表示一個特定的資源,譬如/blog/article/1,就表示一個index為blog,type為aritcle,id為1的document。

            而我們使用http標準method來操作這些資源,POST新增,PUT更新,GET獲取,DELETE刪除,HEAD判斷是否存在。

            這里,友情推薦httpie,一個非常強大的http工具,個人感覺比curl還用,幾乎是命令行調試Elasticsearch的絕配。

            一些使用httpie的例子:

            # create
            http POST :9200/blog/article/1 title="hello elasticsearch" tags:='["elasticsearch"]'

            get

            http GET :9200/blog/article/1

            update

            http PUT :9200/blog/article/1 title="hello elasticsearch" tags:='["elasticsearch", "hello"]'

            delete

            http DELETE :9200/blog/article/1

            exists

            http HEAD :9200/blog/article/1</pre>

            索引和搜索

            雖然Elasticsearch能自動判斷field類型并建立合適的索引,但筆者仍然推薦自己設置相關索引規則,這樣才能更好為后續的搜索服務。

            我們通過定制mapping的方式來設置不同field的索引規則。

            而對于搜索,Elasticsearch提供了太多的搜索選項,就不一一概述了。

            索引和搜索是Elasticsearch非常重要的兩個方面,直接關系到產品的搜索體驗,但筆者現階段也僅僅是大概了解了一點,后續在詳細介紹。

            同步MySQL數據

            Elasticsearch是很強大,但要建立在有足量數據情況下面。我們的數據都在MySQL上面,所以如何將MySQL的數據導入Elasticsearch就是筆者最近研究的東西了。

            雖然現在有一些實現,譬如elasticsearch-river-jdbc,或者elasticsearch-river-mysql,但筆者并不打算使用。

            elasticsearch-river-jdbc的功能是很強大,但并沒有很好的支持增量數據更新的問題,它需要對應的表只增不減,而這個幾乎在項目中是不可能辦到的。

            elasticsearch-river-mysql倒是做的很不錯,采用了python-mysql-replication來通過binlog獲取變更的數據,進行增量更新,但它貌似處理MySQL dump數據導入的問題,不過這個筆者真的好好確認一下?話說,python-mysql-replication筆者還提交過pull解決了minimal row image的問題,所以對elasticsearch-river-mysql這個項目很有好感。只是筆者決定自己寫一個出來。

            為什么筆者決定自己寫一個,不是因為筆者喜歡造輪子,主要原因在于對于這種MySQL syncer服務(增量獲取MySQL數據更新到相關系統),我們不光可以用到Elasticsearch上面,而且還能用到其他服務,譬如cache上面。所以筆者其實想實現的是一個通用MySQL syncer組件,只是現在主要關注Elasticsearch罷了。

            項目代碼在這里go-mysql-elasticsearch,現已完成第一階段開發,內部對接測試中。

            go-mysql-elasticsearch的原理很簡單,首先使用mysqldump獲取當前MySQL的數據,然后在通過此時binlog的name和position獲取增量數據。

            一些限制:

        Term Count Docuemnt
        1.0 1 <1>
        4 1 <3>
        Apache 1 <3>
        Cookbook 1 <3>
        Elasticsearch 2 <1>.<2>
        Mastering 1 <2>
        Server 1 <1>
        Solr 1 <3>
sesese色