分布式分析引擎 Apache Kylin v1.5.2 發布

jopen 9年前發布 | 27K 次閱讀 分布式 分析 Apache Kylin

Apache Kylin?是一個開源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據,最初由eBay Inc. 開發并貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。

KYLIN是什么?

- 可擴展超快OLAP引擎: 

Kylin是為減少在Hadoop上百億規模數據查詢延遲而設計

 

- Hadoop ANSI SQL 接口: 

Kylin為Hadoop提供標準SQL支持大部分查詢功能

 

- 交互式查詢能力: 

通過Kylin,用戶可以與Hadoop數據進行亞秒級交互,在同樣的數據集上提供比Hive更好的性能

 

- 多維立方體(MOLAP Cube):

用戶能夠在Kylin里為百億以上數據集定義數據模型并構建立方體

 

- 與BI工具無縫整合:

Kylin提供與BI工具,如Tableau,的整合能力,即將提供對其他工具的整合

 

- 其他特性: 

- Job管理與監控 
- 壓縮與編碼 
- 增量更新 
- 利用HBase Coprocessor
- 基于HyperLogLog的Dinstinc Count近似算法 
- 友好的web界面以管理,監控和使用立方體 
- 項目及立方體級別的訪問控制安全
- 支持LDAP

 

KYLIN 生態圈

 

Kylin 核心: Kylin OLAP引擎基礎框架,包括元數據(Metadata)引擎,查詢引擎,Job引擎及存儲引擎等,同時包括REST服務器以響應客戶端請求

擴展: 支持額外功能和特性的插件

整合: 與調度系統,ETL,監控等生命周期管理系統的整合

用戶界面: 在Kylin核心之上擴展的第三方用戶界面

驅動: ODBC 和 JDBC 驅動以支持不同的工具和產品,比如Tableau

更新日志

這是一個主要的版本發布帶來了更穩定,健壯及更好管理的版本,Apache Kylin社區解決了75個issue,包括Bug修復,功能增強及一些新特性等。

主要變化

新功能

改進

  • 增強郵件通知 KYLIN-869
  • HiveColumnCardinalityJob應該使用conf/kylin_job_conf.xml中的配置 KYLIN-955
  • 在非PK/FK上支持繼承的維度 KYLIN-1313
  • 增強轉換數據到HFile階段的性能 KYLIN-1323
  • 抽取cube/hybrid/project相關元數據信息以便于診斷/調試/分享等用途 KYLIN-1340
  • 把RealizationCapacity從3套配置改成特定數字 KYLIN-1381
  • 更快更好的響應以應對v2存儲引擎中的rpc超時異常 KYLIN-1391
  • 內存需求較大的Cube應該更智能地選擇LAYER還是INMEM構建算法 KYLIN-1418
  • 在GUI上,給分區時間列添加一個”yyyy-MM-dd HH:MM:ss”選項 KYLIN-1432
  • 基于特定列進行Cuboid分片 KYLIN-1453
  • 添加超鏈接介紹新的Aggregation Group KYLIN-1487
  • 把查詢緩存調整到查詢控制器級別 KYLIN-1526
  • Hfile所有者不是hbase KYLIN-1542
  • 使hbase編碼和block size像hbase壓縮一樣可配置 KYLIN-1544
  • 重構v2存儲引擎使之對擴展更加友好 KYLIN-1561
  • 為in-memory構建任務添加并使用一個單獨kylin_job_conf.xml KYLIN-1566
  • KYLIN-1557前端工作 KYLIN-1567
  • 協助利器線程在超時后自動停止 KYLIN-1578
  • IT測試如BuildCubeWithEngine等的準備階段應該在出現異常后報錯退出 KYLIN-1579
  • 在Fact distinct的MR任務中用1個字節代替8字節作為列標識符 KYLIN-1580
  • 在Cubedesc上指定Region切分size并使model中的RealizationCapacity僅僅作為提示 KYLIN-1584
  • 使MAX_HBASE_FUZZY_KEYS在GTScanRangePlanner中變得可配置KYLIN-1585
  • 在CubeDesigner顯示Cube級別的配置覆蓋 KYLIN-1587
  • 對于小的列族可以使用不同的block size KYLIN-1591
  • 在Rowkey面板添加”isShardBy”標志 KYLIN-1599
  • 在hbase行很大的時候不需要縮小掃描緩存 KYLIN-1601
  • 用戶應該可以到處hbase使用情況協助診斷 KYLIN-1602
  • 為診斷工具添加更多信息 KYLIN-1614
  • 在協處理器中使用1級deflate壓縮 KYLIN-1621
  • 使數據采樣時hll精度可配置 KYLIN-1623
  • 當有十億數據規模時HyperLogLogPlusCounter會變得不精確 KYLIN-1624
  • GC日志在重啟后覆蓋老文件 KYLIN-1625
  • 添加調試接口以導出二進制cube存儲情況以助于未來分析 KYLIN-1627

Bug

  • 時間戳字段的列寬太小 KYLIN-989
  • cube數據在purge后沒有更新 KYLIN-1197
  • 不能在配置中獲取超過一個的系統管理員郵箱 KYLIN-1305
  • 應該檢查并確保topn度量必須指定兩個參數 KYLIN-1551
  • HybridInstance#init()中進行非安全性的初始化 KYLIN-1563
  • 在GUI中添加一個自定義聚合時選擇一個列 KYLIN-1569
  • QueryService#getMetadata()存在沒有關閉的ResultSet KYLIN-1574
  • 在Job engine中執行MR任務時報出NPE KYLIN-1581
  • 當編輯Cube時聚合組信息會變空 KYLIN-1593
  • 度量列可以出現在filter/groupby中 KYLIN-1595
  • 字符串編碼不一致導致UT失敗 KYLIN-1596
  • 在windows開發機不能完整執行單元測試 KYLIN-1598
  • 部署協處理器時會出現hdfs并發寫問題 KYLIN-1604
  • Cube已經就緒但是insight中的表沒有記錄 KYLIN-1612
  • 單元測試’HiveCmdBuilderTest’在’testBeeline’失敗 KYLIN-1615
  • 因topn度量引起的找不到realization KYLIN-1619
  • sql無法執行并報出topn錯誤 KYLIN-1622
  • TopN界面,”group by”列不能使用一個維度列 KYLIN-1631
  • SSHClient#scpFileToLocal()有未關閉的OutputStream KYLIN-1634
  • 樣例Cube構建出錯 KYLIN-1637
  • ToolUtil#getHBaseMetaStoreId()中有未關閉的HBaseAdmin KYLIN-1638
  • MapReduceExecutable.java中使用了錯誤的日志記錄 KYLIN-1639
  • Kylin的hll計數器把null當做一個有效值 KYLIN-1643
  • Purge一個cube并再次構建,起始日期沒有被更新 KYLIN-1647
  • java.io.IOException: Filesystem closed - 在Cube構建第二步(MapR) KYLIN-1650
  • 函數名’getKylinPropertiesAsInputSteam’拼寫錯誤 KYLIN-1655
  • Streaming/kafka配置和表名不匹配 KYLIN-1660
  • 表名在和/tables/tableName做請求映射時被截斷 KYLIN-1662
  • 在添加steam表時應該檢查project選擇 KYLIN-1666
  • Streaming表名應該遵從”DB.TABLE”格式 KYLIN-1667
  • 確保1.5.2和1.5.1的元數據兼容 KYLIN-1673
  • 元數據清理工具只清理了FINISHED和DISCARD的任務,但是一個任務的正確狀態是SUCCEED KYLIN-1678
  • 當使用Statement時sql中包含問號會報錯 KYLIN-1685
  • 結果顯示表格中有非法字符 KYLIN-1688
  • KylinConfigExt在存儲到文件時丟失基本信息 KYLIN-1721
  • IntegerDimEnc在協處理器中有序列化異常 KYLIN-1722

下載

1.5.2 最新發布(源代碼)

最新發布的Apache Kylin?可以從ASF網站下載::

1.5.2 二進制包 for HBase 0.98/0.99

為方便使用,我們提供預打包的二進制安裝包:

1.5.2 二進制包 for HBase 1.x

1.5.2 二進制包 for CDH 5.7

構建二進制包
可以從各個版本或當前最新的開發分支中生成二進制包,請參考這篇幫助文檔

以前的版本
Apache Kylin的舊版本可以從歸檔中下載。

ODBC 驅動 
Kylin ODBC 驅動要求首先安裝Microsoft Visual C++ 2012 Redistributable。 
Kylin ODBC 驅動可以從這里下載:

 

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!