企業級搜索應用服務器Solr介紹

jopen 10年前發布 | 38K 次閱讀 Solr 搜索引擎

solr是基于Lucene Java搜索庫的企業級全文搜索引擎,目前是apache的一個項目。solr需要運行在一個servlet 容器里,例如tomcat5.5。solr在lucene的上層提供了一個基于HTTP/XML的Web Services,我們的應用需要通過這個服務與solr進行交互。

企業級搜索應用服務器Solr介紹

簡介

    Solr是一個獨立的企業級搜索應用服務器,它對外提供類似于Web-service的API接口。用戶可以通過http請求,向搜索引擎服務器提交一定格式的XML文件,生成索引;也可以通過Http Get操作提出查找請求,并得到XML格式的返回結果;

特點

    Solr是一個獨立的企業搜索服務器REST-like API。 你把文件(稱為“索引”) 通過XML、JSON、CSV通過HTTP或二進制。 你查詢它通過HTTP GET和接收XML、JSON、CSV或二進制的結果。

    • 高級全文搜索功能

      </li>

    • 優化了高容量的網絡流量

      </li>

    • 基于標準的開放接口——XML、JSON和HTTP

      </li>

    • 綜合HTML管理接口

      </li>

    • 服務器統計數據暴露在JMX監控

      </li>

    • 線性可伸縮、自動索引復制,自動故障轉移和恢復

      </li>

    • 接近實時索引

      </li>

    • 靈活和適應性強的XML配置

      </li>

    • 可擴展的插件體系結構

      </li> </ul> </ul>

      Solr使用Lucene TM 搜索庫和擴展了它!

        • 真正的數據模式,數值類型、動態字段,獨特的鑰匙

          </li>

        • 強大的擴展Lucene查詢語言

          </li>

        • 面向方面的搜索和過濾

          </li>

        • 地理空間搜索支持多個分文檔和geo多邊形

          </li>

        • 先進、可配置的文本分析

          </li>

        • 高度可配置和用戶可擴展的緩存

          </li>

        • 性能優化

          </li>

        • 外部配置通過XML

          </li>

        • 一個基于AJAX的管理界面

          </li>

        • 可監控日志

          </li>

        • 快接近實時增量索引和索引復制

          </li>

        • 高度可伸縮的分布式搜索分散指數跨多個主機

          </li>

        • JSON、XML、CSV / delimited-text和二進制格式更新

          </li>

        • 簡單的方法將數據從數據庫和XML文件從本地磁盤和HTTP消息

          </li>

        • 豐富的文檔解析和索引(PDF、Word、HTML等)使用Apache Tika

          </li>

        • Apache UIMA集成配置元數據提取

          </li>

        • 多個搜索指數

          </li> </ul> </ul>

          詳細的功能

          模式

            • 定義文檔的字段類型和字段

              </li>

            • 可以更智能的處理

              </li>

            • 聲明式Lucene分析儀規范

              </li>

            • 動態字段支持動態添加新字段

              </li>

            • CopyField功能允許索引一個領域的多個方面,或將多個字段組合成一個可搜索的字段

              </li>

            • 顯式類型不需要猜測類型的字段

              </li>

            • 外部文件的配置stopword列表、同義詞列表和受保護的單詞列表

              </li>

            • 許多額外的文本分析組件,包括分詞、正則表達式和近似讀音過濾器

              </li>

            • 可插入的每個領域相似模型

              </li> </ul> </ul>

              查詢

                • HTTP接口具有可配置響應格式(XML / XSLT、JSON、Python、Ruby PHP,速度、CSV、二進制)

                  </li>

                • 通過任意數量的字段進行排序,并通過復雜的數值字段功能

                  </li>

                • 高級DisMax查詢解析器高相關性用戶輸入的查詢的結果

                  </li>

                • 強調上下文片段

                  </li>

                • 分面搜索基于獨特的字段值,顯式查詢,日期范圍,數值范圍或樞軸

                  </li>

                • 同時選中分類通過標記和選擇性地排除過濾器

                  </li>

                • 拼寫建議用戶查詢

                  </li>

                • 更像這個建議給定文檔

                  </li>

                • 函數查詢——影響的分數通過用戶指定復雜的功能 數值字段或查詢相關性分數。

                  </li>

                • 范圍過濾函數查詢結果

                  </li>

                • 日期數學——相對于“現在”指定日期的查詢和更新

                  </li>

                • 使用Carrot2動態搜索結果聚類

                  </li>

                • 數值字段統計如最小,最大,平均值,標準偏差

                  </li>

                • 結合查詢源自不同的語法

                  </li>

                • 完成用戶查詢之功能

                  </li>

                • 允許配置的結果為一個查詢,覆蓋正常的得分和排序

                  </li>

                • 簡單的兩個文檔類型之間的連接能力

                  </li>

                • 性能優化

                  </li> </ul> </ul>

                  核心

                    • 沒有重新啟動動態創建和刪除文檔集合

                      </li>

                    • 可插拔的查詢處理程序和可擴展的XML數據格式

                      </li>

                    • 可插拔的用戶查詢的功能函數

                      </li>

                    • 可定制的基于組件的請求處理程序與分布式搜索的支持

                      </li>

                    • 文檔獨特性執行基于獨特的關鍵字段

                      </li>

                    • 文檔復制檢測,包括模糊附近重復

                      </li>

                    • 自定義索引處理鏈,使索引之前文檔操作

                      </li>

                    • 用戶可配置的命令觸發指數變化

                      </li>

                    • 與排序字段丟失控制文檔的能力將被放置

                      </li>

                    • “路加福音”語料庫信息請求處理程序

                      </li> </ul> </ul>

                      緩存

                        • 可配置查詢結果、過濾和文檔緩存實例

                          </li>

                        • 可插拔的緩存實現,包括鎖自由、高并發性實現

                          </li>

                        • 緩存變暖背景

                          </li>

                        • 當一個新搜索器打開,可配置搜索與運行 避免為了溫暖起來 緩慢的第一個打擊。 在變暖,當前搜索器處理請求。

                          </li>

                        • Autowarming背景

                          </li>

                        • 最近訪問的緩存條目 新搜索器搜索器,使高緩存命中 利率在索引/搜索者的變化。

                          </li>

                        • 快速/小過濾器實現

                          </li>

                        • 用戶級緩存autowarming支持

                          </li> </ul> </ul>

                          SolrCloud

                            • 集中基于Apache動物園管理員配置

                              </li>

                            • 自動化的分布式索引/分片-文檔發送到任何節點,它將轉發到正確的切分

                              </li>

                            • 接近實時索引與直接基于推的復制(也支持基于復制慢)

                              </li>

                            • 事務日志可以確保不丟失更新即使還沒有索引的文檔到磁盤

                              </li>

                            • 自動查詢故障轉移,指數領袖選舉和恢復失敗的情況下

                              </li>

                            • 沒有單點故障

                              </li> </ul> </ul>

                              管理界面

                                • 綜合統計數據緩存利用率、更新和查詢

                                  </li>

                                • 互動模式瀏覽器,包括索引統計信息

                                  </li>

                                • 復制監控

                                  </li>

                                • SolrCloud儀表盤圖形集群節點狀態

                                  </li>

                                • 完整的日志記錄控制

                                  </li>

                                • 文本分析調試器,顯示每個階段在一個分析器的結果

                                  </li>

                                • 網頁查詢接口w /調試輸出

                                  </li>

                                • 解析查詢輸出

                                  </li>

                                • Lucene文檔得分詳細解釋()

                                  </li>

                                • 解釋分數以外的文件請求的范圍來調試為什么給定文檔沒有排名更高。

                                  </li> </ul> </ul>


                                  總結

                                      Solr 是一個高性能,采用Java5開發,基于Lucene的全文搜索服務器。同時對其進行了擴展,提供了比Lucene更為豐富的查詢語言,同時實現了可配 置、可擴展并對查詢性能進行了優化,并且提供了一個完善的功能管理界面,是一款非常優秀的全文搜索引擎。文檔通過Http利用XML 加到一個搜索集合中。查詢該集合也是通過http收到一個XML/JSON響應來實現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示 搜索結果,通過索引復制來提高可用性,提供一套強大Data Schema來定義字段,類型和設置文本分析,提供基于Web的管理界面等。

                                  </div>

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!