分布式數據倉庫系統,Apache Tajo v0.9 發布

jopen 10年前發布 | 7K 次閱讀 Apache Tajo

Apache Tajo v0.9 發布,此版本目標是優化傳統 SQL 性能,改進 Tajo leading-edge 原生 SQL 支持;提高查詢速度。

Apache Tajo v0.9 改進如下:

 - More comprehensive and powerful SQL capabilities, such as TIMESTAMP, DATE, TIME, and INTERVAL type support, as well as WINDOW functions, OVER clause support, and multiple distinct aggregation;

 - Performance improvements, such as offheap sort algorithm for ORDER BY and Runtime code generation for evaluating expressions push the boundaries of massive data query speeds; 

 - Improvements to the hash shuffle I/O, boosting bottom-line speeds by 200-300% on "heavy", complex queries; 

 - Enhanced Hadoop integration, including support for Hadoop 2.2.0 up to Hadoop 2.5.1, and expanded Hive Metastore access; 

 - Improved catalog backup and restore feature, as well as accessibility enhancements streamline performance across disparate technology environments.</pre>

分布式數據倉庫系統,Apache Tajo v0.9 發布

Tajo 是一個分布式數據倉庫系統,基于 Hadoop 實現,特點是低延遲、高可伸縮,提供專用查詢和 ETL 工具

特點:

  • 可伸縮性和低延遲

    • 完全分布式的 SQL 查詢處理,基于存儲雨 HDFS 的大數據集

    • 超低響應時間(約100毫秒),在合理數據范圍內的簡單查詢

  • 支持長時間運行的查詢

    • 容錯支持,避免某些任務失敗后的查詢重啟

    • 動態調度,處理和異構集群節點故障

  • ETL

    • ETL 可實現不同數據格式之間的轉換

    • 支持多種文件格式,如 CSV、RCFile 和 RowFile

  • 擴展性

    • 支持用戶自定義函數

    • 提供自定義文件格式的 Scanner/Appender 接口

  • 兼容性

    • 遵循 ANSI/ISO SQL 標準,非標準方面遵循 PostgreSQL 規范

    • 支持 HiveQL 模式

    • 在 HCatalog 和 Hive MetaStore 實現表訪問

    • 支持 JDBC 驅動

  • 簡單

    • 提供交互式 Shell 來提交 SQL 查詢到 Tajo 集群

    • 提供備份和恢復工具

    • 異步/同步 Java API 來提交 SQL 查詢到 Tajo 集群

    </ul> 來自:http://www.oschina.net/news/56339/apache-tajo-v0-9

     本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
     轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
     本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!