Lucene4.0 / Solr 4.0 的新特性

jopen 13年前發布 | 14K 次閱讀 Google

Lucene 和 Solr 4.0 是一個非常重要的里程碑,包含大量的新特性以及性能的提升,本文主要介紹值得關注的一些改進。

Lucene:

  • ColumnStrideFields: DocValues 存儲在每個文檔中,每個文檔的域可包含一個給定類型的值
  • Facet search, 這個功能已經包含在 Solr 中,現在 Lucene 也提供了
  • 通過 靈活的索引 用戶可自行修改 fields, terms, docs 和 positions 在索引的編碼方式
  • 增加了不同的相關排名系統
  • 增加了用于支持 append-only 文件系統的編碼 (例如 Hadoop DFS).
  • 增加 DirectSpellChecker 可直接從 Levenshtein 自動字典檢索校正
  • 文本詞條使用 UTF-8 編碼存儲,而不再是 UTF-16
  • 大幅提升搜索時使用過濾器的性能
  • FuzzyQuery 性能提升 100-200 倍
  • 增加索引統計,包括詞條的關鍵字數等
  • 增加 RegexpQuery 正則表達式查詢

Solr:

Solr 4.0-alpha 包含更多 NoSQL 特性,適用于很多人將 Solr 做為數據存儲解決方案。

  • 分布式索引設計,提供近乎實時的操作和 NoSQL 特性,如 realtime-get, 樂觀鎖和持續更新。
  • 高可用性,無單點故障
  • 集成 Apache Zookeeper 用于分布式協調、元數據集群以及配置存儲
  • 發往集群節點中的更新操作將自動轉到正確的分片以及復制到冗余節點
  • 發往任意節點的查詢會自動執行全分布式搜索,提供負載均衡和故障自動遷移
  • 事務日志確保不會丟失任何一個未提交的文檔
  • Real-time Get ? 可快速獲取文檔的最新版本,無需提交或者打開一個新的 Searcher
  • 原子更新,可添加、刪除、修改和增加已存在文檔的字段值,無需再次傳送整個文檔
  • Pivot Faceting ? 多層次約束每一個不同 field 的頂級約束。
  • Pseudo-Join 功能? 可基于關聯度來選擇一組文檔
  • 新的 Web 管理界面,支持 SolrCloud.

參考:
http://lucene.apache.org/core/4_0_0-ALPHA/changes/Changes.html
http://lucene.apache.org/solr/

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!