分布式數據倉庫系統,Apache Tajo v0.9 發布
Apache Tajo v0.9 發布,此版本目標是優化傳統 SQL 性能,改進 Tajo leading-edge 原生 SQL 支持;提高查詢速度。
Apache Tajo v0.9 改進如下:- More comprehensive and powerful SQL capabilities, such as TIMESTAMP, DATE, TIME, and INTERVAL type support, as well as WINDOW functions, OVER clause support, and multiple distinct aggregation;
- Performance improvements, such as offheap sort algorithm for ORDER BY and Runtime code generation for evaluating expressions push the boundaries of massive data query speeds;
- Improvements to the hash shuffle I/O, boosting bottom-line speeds by 200-300% on "heavy", complex queries;
- Enhanced Hadoop integration, including support for Hadoop 2.2.0 up to Hadoop 2.5.1, and expanded Hive Metastore access;
- Improved catalog backup and restore feature, as well as accessibility enhancements streamline performance across disparate technology environments.</pre>
Tajo 是一個分布式數據倉庫系統,基于 Hadoop 實現,特點是低延遲、高可伸縮,提供專用查詢和 ETL 工具
特點:
可伸縮性和低延遲
完全分布式的 SQL 查詢處理,基于存儲雨 HDFS 的大數據集
超低響應時間(約100毫秒),在合理數據范圍內的簡單查詢
支持長時間運行的查詢
容錯支持,避免某些任務失敗后的查詢重啟
動態調度,處理和異構集群節點故障
ETL
ETL 可實現不同數據格式之間的轉換
支持多種文件格式,如 CSV、RCFile 和 RowFile
擴展性
支持用戶自定義函數
提供自定義文件格式的 Scanner/Appender 接口
兼容性
遵循 ANSI/ISO SQL 標準,非標準方面遵循 PostgreSQL 規范
支持 HiveQL 模式
在 HCatalog 和 Hive MetaStore 實現表訪問
支持 JDBC 驅動
簡單
提供交互式 Shell 來提交 SQL 查詢到 Tajo 集群
提供備份和恢復工具
異步/同步 Java API 來提交 SQL 查詢到 Tajo 集群
</ul> 來自:http://www.oschina.net/news/56339/apache-tajo-v0-9