分布式分析引擎 Apache Kylin v1.5.3 正式發布

jopen 8年前發布 | 12K 次閱讀 分布式 分析 Apache Kylin

Apache Kylin?是一個開源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據,最初由eBay Inc. 開發并貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。

KYLIN是什么?

- 可擴展超快OLAP引擎: Kylin是為減少在Hadoop上百億規模數據查詢延遲而設計

- Hadoop ANSI SQL 接口: Kylin為Hadoop提供標準SQL支持大部分查詢功能

- 交互式查詢能力: 通過Kylin,用戶可以與Hadoop數據進行亞秒級交互,在同樣的數據集上提供比Hive更好的性能

- 多維立方體(MOLAP Cube): 用戶能夠在Kylin里為百億以上數據集定義數據模型并構建立方體

- 與BI工具無縫整合: Kylin提供與BI工具,如Tableau,的整合能力,即將提供對其他工具的整合

- 其他特性: 

- Job管理與監控 
- 壓縮與編碼 
- 增量更新 
- 利用HBase Coprocessor
- 基于HyperLogLog的Dinstinc Count近似算法 
- 友好的web界面以管理,監控和使用立方體 
- 項目及立方體級別的訪問控制安全
- 支持LDAP

KYLIN 生態圈

Kylin 核心: Kylin OLAP引擎基礎框架,包括元數據(Metadata)引擎,查詢引擎,Job引擎及存儲引擎等,同時包括REST服務器以響應客戶端請求

擴展: 支持額外功能和特性的插件

整合: 與調度系統,ETL,監控等生命周期管理系統的整合

用戶界面: 在Kylin核心之上擴展的第三方用戶界面

驅動: ODBC 和 JDBC 驅動以支持不同的工具和產品,比如Tableau

更新日志

  • 采用標準API獲取Hadoop任務的狀態 KYLIN-1319
  • 全局的(擴展性更好的)字典編碼方法 KYLIN-1705
  • 更穩定的精確去重(count distinct)度量 KYLIN-1379
  • 通過指定每個Mapper處理紀錄的數量,從而提高Cube構建性能 KYLIN-1656
  • 在創建Hive平表時按某些列(UHC)列來分散數據 KYLIN-1677
  • 允許在Cube級別覆蓋MR任務的屬性 KYLIN-1706
  • 允許非管理員用戶編輯修改Cube向導的“高級設置”頁 KYLIN-1731
  • 計算全0組合(mandantory維度除外) cuboids KYLIN-1747
  • 允許全部維度都是mandatory KYLIN-1749
  • 修復“當連接類型時inner時不能使用view做維度表”的問題 KYLIN-1789
  • HBase coprocessor出錯時將Exception傳回查詢線程 KYLIN-1645
  • 精簡JDBC driver的依賴 KYLIN-1846
  • TopN度量支持使用非字典的編碼方式 KYLIN-1478

下載

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!