強大的大數據全文索引解決方案-ClouderaSearch
介紹
ClouderaSearch帶來了全文索引,實時查詢和針對CDH和你的企業級數據中心的擴展、靈活性的索引服務。由Apache Hadoop和Apache Solr提供,是企業級的開源搜索。Cloudera Search帶來了擴展性和可靠性的新一代集成,多個工作任務的搜索。通過它與CDH獨特的整合,Cloudera Search獲得了同樣的容錯性,擴展性,可見性,安全性,以及靈活性的提供其他企業級數據中心的工作。
關鍵特征:
l 全文索引和小面(faceted,與solr一樣)導航,基于Hadoop和HBase中的內容
l 可以基于MapReduce實現批量索引。
l 通過GO-LIVE對動態索(Dynamic index)引進行更新
l 針對實時查詢,集成了Flume和Lily HBase indexer。
l 無模式(Schema-less)和動態字段的支持,使schema管理更簡單
l 針對hadoop優化的字段格式做了“開箱即可用”(Out-of-the-box)字段的提取
l 多文件(Multi-file)格式的支持和集成能力
l 通過HDFS,實現擴展性和容錯性索引存儲和訪問
l 與Apache Sentry的集成,實現了基于角色,細粒度的權限控制
l 通過使用Morphlines重用了數據配置通過工作量
l 與其他hadoop服務共用了基礎設施,資源和數據
l 通過使用Index Aliasing 和 Oozie workflows,使用數據遷移和服務更簡單
l 在Hue中有簡單,可配置的,基于面(faceted)和全文搜索的UI可以使用
l 所有標準的搜索特征在Solr和SolrCloud中有的
l 跨平臺的監控,可見性,資源控制,通過ClouderaManager實現
可以想象:Cloudera Search是一個整合了Lily,solr(solr cloud),HBase,Hadoop,Flume等,以及使用ClouderaManager來進行管理的全文索引解決方案。也就是說任何一個人,使 用了這個框架,則可以輕松搭建一個與google和百度一樣的搜索服務。由此可以看出這個框架的強大之處。準備后續使用了這個框架,再進一步分享一些經驗 給大家。
參考官網: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/search.html