Solr 是一種可供企業使用的、開放源碼的、基于 Lucene 的搜索服務器,solr實質上是基于Lucence的搜索套裝,所有的搜索/索引能力都來著Lucence,solr干的都是打雜的活。
假如我們建了一個web站點或者是一個應用程序,你就可能會需要添加搜索功能(因為這太有必要了),而事實上讓搜索跑起來是有難度的,我們不僅想要搜索的速度快,而且還要安裝方便(最好是無痛安裝),另外模式定義要非常自由(schemafree),可以通過HTTP以JSON格式的數據來進行索引,服務器必須是一直可用的(HA高可用,這個不能丟),從一臺機器能夠擴展到成千上萬臺,然后搜索必須是實時的(real-time),使用起來一定要簡單、支持多租戶,我們需要一整套的解決方案。elasticsearch?的目標是解決上面的所有問題以及更多。它是開源的(Apache2協議),分布式的,RESTful的,構建在HYPERLINK"http://lucene.apache.org/"ApacheLucene之上的的搜索引擎.ElasticSearch是一個基于Lucene構建的開源,分布式,RESTful搜索引擎。
Solr也是Apache下一個項目,它是使用java開發的,它是基于Lucene的全文搜索服務器。
Solr 是Apache下的一個頂級開源項目,采用Java開發,它是基于Lucene的全文搜索服務器。Solr可以獨立運行在Jetty、Tomcat等這些Servlet容器中。
elasticsearch 分布式搜索框架基本上所有特性都包含了,分布式搜索,分布式索引,零配置,自動分片,索引自動負載,自動發現,restful 風格接口。
FlexibleSearch是Hybris提供的類SQL且基于Hybris Type System的搜索語言,語法比原生SQL要簡單很多。
1、雙引號 把搜索詞放在雙引號中,代表完全匹配搜索,也就是說搜索結果返回的頁面包含雙引號中出現的所有的詞,連順序也必須完全匹配。百度和Google 都支持這個指令。例如搜索: “企業SEO” 2、減號 減號代表搜索不包含減號后面的詞的頁面。使用這個指令時減號前面必須是空格,減號后面沒有空格,緊跟著需要排除的詞。Google 和百度都支持這個指令。 例如:搜索 -引擎 返回的則是包含“搜索”這個詞,卻不包含“引擎”這個詞的結果
iSearch4性能優化之路一浪概要引擎系統架構優化結果總結索引結構優化查詢流程優化其他優化iSearch4引擎系統架構
iSearch5的性能挑戰iSearch5性能優化我們做了什么Searcherresultcache Bitmap索引索引截斷索引排序索引分層其他優化Searcherresultcache35%query重復出現索引實時更新Cache失效策略結果合并100%性能提升上次查詢時doc集合新增Bitmap索引寶貝類型:90%+是一口價類型的高頻詞:男女正品2013倒排求交,計算量大正排過濾,不適合高頻詞性能提升100%索引截斷原始鏈A截斷鏈B截斷鏈C截斷鏈性能提升70%索引排序絕大部分query和某幾個類目相關很多term和某幾個類目相關排序后性能30%排序后倒排索引大小下降30%排序前排序后索引分層分層前單集群分層后雙集群性能提升30%其他優化異構機器調度大增量merge粗排
SearchPlanner-搜索共享業務平臺亞夫曾經的淘寶搜索系統架構100+個不同應用調用搜索服務20+個不同功能的子系統構成了淘寶的搜索系統存在的問題:無法提供完整的搜索服務用戶體驗不一致,算法團隊的各種創新成果不能共享存在嚴重的安全隱患引擎及其它系統更新換代困難各應用重復工作,效率低下現在的淘寶搜索系統架構解決了舊架構的各種不足,將N*M的復雜關系,變為了N+M各業務在SearchPlanner平臺上互相融合,涌現出了一系列創新型業務,成為了一個創新支撐平臺面臨的技術挑戰:穩定性開發效率數據驅動的業務快速迭代SearchPlanner整體架構提供三個層次的服務:完整的搜索業務服務搜索的基礎服務平臺的基礎服務
iSearch5商品搜索特色功能引擎平臺調度系統喜德iSearch5插件機制總述iSearch5正排定制iSearch5查詢流程控制iSearch5截斷與分層iSearch5引擎插件定制能力算分插件QRS插件文檔處理插件動態摘要插件Functionexpression插件Sorter插件iSearch5正排定制
OpenSearch—可定制式開放云搜索平臺一淘及搜索事業部國泊(郭瑞杰)大綱個人介紹性能優化2008年7月畢業于中科院計算所,工學博士,研究方向實時搜索2008.8新的啟程:重新實現查詢引擎新的啟程:組建團隊,重新實現索引引擎(indexlib)1.反思:優化存儲、online解耦飛天2.應用:全網搜索開啟HA3準實時搜索時代(Swift+HA30.6)應用:CNZZ通用站內搜索(替換soso站內)1.提出產品想法2.團隊組建&探路:外包式定制?開放定制3.技術決策:與全網搜索服務必須分離
iSearch演變歷程太奕概述了解iSearch引擎歷史變革iSearch遇到過哪些問題iSearch如何解決這些問題通過解決方案揭示iSearch的進化過程如何為iSearch的技術發展保駕護航iSearch引擎歷史問題與挑戰問題與挑戰技術變革問題與挑戰技術變革問題與挑戰倒排容量優化正排容量優化保障機制用戶對引擎的期望:能夠支持更大領域的業務需求能夠更快速的響應業務需求一個重要的前提:保證上線版本的服務質量保障機制
介紹一淘及搜索事業部-搜索技術-引擎平臺-調度系統周鴻斌(悟非)內容提綱ISearch5AdminISearch5系統架構ISearch5 admin介紹異構機器不停服務切換大增量數據分發(DeployExpress)系統結構功能特性應用服務監控(Amonitor)系統結構功能特性
淘寶搜索業務架構優化桂南Agenda在線架構業務雙11優化搜索在線架構重點模塊iSearch5:引擎平臺,搜索服務的核心Opensearch:十分鐘搭建搜索引擎SearchPlanner:搜索的總指揮UPS:個性化信息存儲和計算CM:服務定位和流量切換工具支持的業務傳統SRP主搜索一淘商品搜索天貓商品搜索店鋪搜索店鋪內搜索支持的業務傳統SRP主搜索一淘商品搜索天貓商品搜索店鋪搜索店鋪內搜索比價優惠主搜索產品搜索一淘優惠購一淘優惠一淘比價頁如意淘支持的業務傳統SRP主搜索一淘商品搜索天貓商品搜索店鋪搜索店鋪內搜索比價優惠主搜索產品搜索一淘優惠購
淘寶搜索離線系統介紹一淘搜索事業部淘寶搜索dump中心木桑概要淘寶搜索的離線場景計算需求存儲需求全量流程&增量流程集群運維開發管理展望Q&A淘寶搜索的離線場景離線場景約束條件結構化數據的完整性\準確性:數據量大而又要完整、準確,更新及時性:更新多源頭又要同步,更新數據量大而又要實時性架構業務邏輯友好性:全量增量流程不同而又要業務代碼一致等淘寶搜索業務簡介09年前架構Dumpserver……Dumpserver07年:12臺08年:48臺OracleSearchEngineXML09年架構-引入map/reduce09年架構–job序列計算需求-09年架構的問題Job鏈太長;多次重復數據I/O;問題不好查;對數據庫壓力大;業務邏輯分散,開發效率不高;Job數量跟隨業務膨脹;hdfs只有順序寫能力,沒有隨機讀寫;增量任務速度慢;計算需求-理想狀態和數據庫關聯少;全量時間控制在2小時內,每天做一次全量(join)計算;
搜索離線生產集群中的流計算莫問個人背景簡介花名:莫問真名:王峰2006年畢業后加入公司雅虎中國(垂直搜索引擎團隊)阿里云(云計算服務團隊)淘寶/一淘(網頁抓取團隊)技術方向:搜索離線系統*提綱搜索離線系統技術體系Hadoop-2.0YARN介紹StreamService計算模型StreamService服務調度StreamService運維操作*搜索離線系統技術體系*HDFSYARNHBaseMapReduceStreamServiceHQueue搜索離線業務網頁抓取數據處理數據統計PigHive數據挖掘…….Hadoop-1.0VSHadoop-2.0*ApplicationsonYARN*StreamService計算模型基本概念拓撲結構消息管理進度管理編程接口*基本概念StreamService:完成一套業務功能的流計算服務StreamRole:1個Role表示1組具備相同計算功能的計算單元StreamWorker:StreamRole中的計算單元StreamSource:StreamWorker的數據輸入源StreamSink
應用場景實時引擎消息系統應用場景—主搜需求需要解決的問題性能優化更快的從異常中恢復更好的擴展性應用場景—主搜swiftdumphdfs實時引擎Disk Builder Doc Processor Chain Searcher Reader Query實時引擎—優化手段批量job可以利用offline計算資源做索引優化全局排序靜態截斷大增量merge實時引擎—大增量MergeMerge用于回收被標記刪除的文檔,減小物理內存和多segment對查詢性能的影響引擎以version和segment為單位組織索引。每個version包含多個segment,segment中包括倒排(index)、正排(attribute)和詳情(summary)MergeStrategy:指segment合并的策略,目前引擎提供optimize、balanceTree、realtime三種策略實時引擎—大增量MergeSearcherSegment_0IndexReader1Query實時引擎—按行切換
百度Elasticsearch大數據分析實踐百度大數據部高攀2015年10月17日大綱背景介紹典型應用場景遇到的問題及經驗分享對ES的優化與改進后期計劃ES是啥有誰在用面向搜索(forfulltextsearch) 結構化數據分析文本數據分析ES在百度現狀2013年10月開始使用目前覆蓋百度內部20多個業務線包括casio、云分析、網盟、預測、文庫、直達號、錢包、風控等單集群每天導入30TB+數據,總共每天60TB+單集群最大100臺機器,200個ES節點共使用近300臺機器
?Elasticsearch是一個開源的分布式實時搜索與分析引擎,支持云服務。它是基于Apache Lucene搜索引擎的類庫創建的,提供了全文搜索能力、多語言支持、專門的查詢語言、支持地理位置服務、基于上下文的搜索建議、自動完成以及搜索片段(snippet)的能力。Elasticsearch支持RESTful的API,可以使用JSON通過HTTP調用它的各種功能,包括搜索、分析與監控。下面是講述了elasticsearch分布式搜索配置文件各類參數的具體含義。