分布式分析引擎 Apache Kylin v1.5.2 發布

Apache Kylin?是一個開源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據,最初由eBay Inc. 開發并貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。

KYLIN是什么?
- 可擴展超快OLAP引擎:
Kylin是為減少在Hadoop上百億規模數據查詢延遲而設計
- Hadoop ANSI SQL 接口:
Kylin為Hadoop提供標準SQL支持大部分查詢功能
- 交互式查詢能力:
通過Kylin,用戶可以與Hadoop數據進行亞秒級交互,在同樣的數據集上提供比Hive更好的性能
- 多維立方體(MOLAP Cube):
用戶能夠在Kylin里為百億以上數據集定義數據模型并構建立方體
- 與BI工具無縫整合:
Kylin提供與BI工具,如Tableau,的整合能力,即將提供對其他工具的整合
- 其他特性:
- Job管理與監控
- 壓縮與編碼
- 增量更新
- 利用HBase Coprocessor
- 基于HyperLogLog的Dinstinc Count近似算法
- 友好的web界面以管理,監控和使用立方體
- 項目及立方體級別的訪問控制安全
- 支持LDAP
KYLIN 生態圈
Kylin 核心: Kylin OLAP引擎基礎框架,包括元數據(Metadata)引擎,查詢引擎,Job引擎及存儲引擎等,同時包括REST服務器以響應客戶端請求
擴展: 支持額外功能和特性的插件
整合: 與調度系統,ETL,監控等生命周期管理系統的整合
用戶界面: 在Kylin核心之上擴展的第三方用戶界面
驅動: ODBC 和 JDBC 驅動以支持不同的工具和產品,比如Tableau
更新日志
這是一個主要的版本發布帶來了更穩定,健壯及更好管理的版本,Apache Kylin社區解決了75個issue,包括Bug修復,功能增強及一些新特性等。
主要變化
新功能
- Count Distinct可以工作在未實現定義的維度上 KYLIN-1016
- 支持Hive視圖作為Lookup表 KYLIN-1077
- 使Kylin運行在MapR環境中 KYLIN-1515
- 通過GUI下載診斷zip包 KYLIN-1600
- 使Kylin支持cdh5.7 KYLIN-1672
- 顯示時間列作為分區列 KYLIN-1441
改進
- 增強郵件通知 KYLIN-869
- HiveColumnCardinalityJob應該使用conf/kylin_job_conf.xml中的配置 KYLIN-955
- 在非PK/FK上支持繼承的維度 KYLIN-1313
- 增強轉換數據到HFile階段的性能 KYLIN-1323
- 抽取cube/hybrid/project相關元數據信息以便于診斷/調試/分享等用途 KYLIN-1340
- 把RealizationCapacity從3套配置改成特定數字 KYLIN-1381
- 更快更好的響應以應對v2存儲引擎中的rpc超時異常 KYLIN-1391
- 內存需求較大的Cube應該更智能地選擇LAYER還是INMEM構建算法 KYLIN-1418
- 在GUI上,給分區時間列添加一個”yyyy-MM-dd HH:MM:ss”選項 KYLIN-1432
- 基于特定列進行Cuboid分片 KYLIN-1453
- 添加超鏈接介紹新的Aggregation Group KYLIN-1487
- 把查詢緩存調整到查詢控制器級別 KYLIN-1526
- Hfile所有者不是hbase KYLIN-1542
- 使hbase編碼和block size像hbase壓縮一樣可配置 KYLIN-1544
- 重構v2存儲引擎使之對擴展更加友好 KYLIN-1561
- 為in-memory構建任務添加并使用一個單獨kylin_job_conf.xml KYLIN-1566
- KYLIN-1557前端工作 KYLIN-1567
- 協助利器線程在超時后自動停止 KYLIN-1578
- IT測試如BuildCubeWithEngine等的準備階段應該在出現異常后報錯退出 KYLIN-1579
- 在Fact distinct的MR任務中用1個字節代替8字節作為列標識符 KYLIN-1580
- 在Cubedesc上指定Region切分size并使model中的RealizationCapacity僅僅作為提示 KYLIN-1584
- 使MAX_HBASE_FUZZY_KEYS在GTScanRangePlanner中變得可配置KYLIN-1585
- 在CubeDesigner顯示Cube級別的配置覆蓋 KYLIN-1587
- 對于小的列族可以使用不同的block size KYLIN-1591
- 在Rowkey面板添加”isShardBy”標志 KYLIN-1599
- 在hbase行很大的時候不需要縮小掃描緩存 KYLIN-1601
- 用戶應該可以到處hbase使用情況協助診斷 KYLIN-1602
- 為診斷工具添加更多信息 KYLIN-1614
- 在協處理器中使用1級deflate壓縮 KYLIN-1621
- 使數據采樣時hll精度可配置 KYLIN-1623
- 當有十億數據規模時HyperLogLogPlusCounter會變得不精確 KYLIN-1624
- GC日志在重啟后覆蓋老文件 KYLIN-1625
- 添加調試接口以導出二進制cube存儲情況以助于未來分析 KYLIN-1627
Bug
- 時間戳字段的列寬太小 KYLIN-989
- cube數據在purge后沒有更新 KYLIN-1197
- 不能在配置中獲取超過一個的系統管理員郵箱 KYLIN-1305
- 應該檢查并確保topn度量必須指定兩個參數 KYLIN-1551
- HybridInstance#init()中進行非安全性的初始化 KYLIN-1563
- 在GUI中添加一個自定義聚合時選擇一個列 KYLIN-1569
- QueryService#getMetadata()存在沒有關閉的ResultSet KYLIN-1574
- 在Job engine中執行MR任務時報出NPE KYLIN-1581
- 當編輯Cube時聚合組信息會變空 KYLIN-1593
- 度量列可以出現在filter/groupby中 KYLIN-1595
- 字符串編碼不一致導致UT失敗 KYLIN-1596
- 在windows開發機不能完整執行單元測試 KYLIN-1598
- 部署協處理器時會出現hdfs并發寫問題 KYLIN-1604
- Cube已經就緒但是insight中的表沒有記錄 KYLIN-1612
- 單元測試’HiveCmdBuilderTest’在’testBeeline’失敗 KYLIN-1615
- 因topn度量引起的找不到realization KYLIN-1619
- sql無法執行并報出topn錯誤 KYLIN-1622
- TopN界面,”group by”列不能使用一個維度列 KYLIN-1631
- SSHClient#scpFileToLocal()有未關閉的OutputStream KYLIN-1634
- 樣例Cube構建出錯 KYLIN-1637
- ToolUtil#getHBaseMetaStoreId()中有未關閉的HBaseAdmin KYLIN-1638
- MapReduceExecutable.java中使用了錯誤的日志記錄 KYLIN-1639
- Kylin的hll計數器把null當做一個有效值 KYLIN-1643
- Purge一個cube并再次構建,起始日期沒有被更新 KYLIN-1647
- java.io.IOException: Filesystem closed - 在Cube構建第二步(MapR) KYLIN-1650
- 函數名’getKylinPropertiesAsInputSteam’拼寫錯誤 KYLIN-1655
- Streaming/kafka配置和表名不匹配 KYLIN-1660
- 表名在和/tables/tableName做請求映射時被截斷 KYLIN-1662
- 在添加steam表時應該檢查project選擇 KYLIN-1666
- Streaming表名應該遵從”DB.TABLE”格式 KYLIN-1667
- 確保1.5.2和1.5.1的元數據兼容 KYLIN-1673
- 元數據清理工具只清理了FINISHED和DISCARD的任務,但是一個任務的正確狀態是SUCCEED KYLIN-1678
- 當使用Statement時sql中包含問號會報錯 KYLIN-1685
- 結果顯示表格中有非法字符 KYLIN-1688
- KylinConfigExt在存儲到文件時丟失基本信息 KYLIN-1721
- IntegerDimEnc在協處理器中有序列化異常 KYLIN-1722
下載
1.5.2 最新發布(源代碼)
最新發布的Apache Kylin?可以從ASF網站下載::
- Apache Kylin v1.5.2
- 發布日志
- Git 標簽: kylin-1.5.2
- Git Commit: af2646b72fbb6dc81699ad6661303fd612a2eebf
1.5.2 二進制包 for HBase 0.98/0.99
為方便使用,我們提供預打包的二進制安裝包:
1.5.2 二進制包 for HBase 1.x
1.5.2 二進制包 for CDH 5.7
構建二進制包
可以從各個版本或當前最新的開發分支中生成二進制包,請參考這篇幫助文檔
以前的版本
Apache Kylin的舊版本可以從歸檔中下載。
ODBC 驅動
Kylin ODBC 驅動要求首先安裝Microsoft Visual C++ 2012 Redistributable。
Kylin ODBC 驅動可以從這里下載:
- Kylin ODBC 驅動 v1.5 (推薦,兼容所有Kylin版本)
- Kylin ODBC 驅動 v1.2