分布式數據倉庫系統:Apache Tajo

jopen 11年前發布 | 49K 次閱讀 數據挖掘 Apache Tajo

分布式數據倉庫系統:Apache Tajo

Tajo 是一個基于 Hadoop 實現的分布式數據倉庫系統,特點是低延遲、高可伸縮,提供專用查詢和針對存儲在HDFS上的大數據集和其他數據源的ETL 工具。

特點:

  • 可伸縮性和低延遲
    • 完全分布式的 SQL 查詢處理,基于存儲雨 HDFS 的大數據集
    • 超低響應時間(約100毫秒),在合理數據范圍內的簡單查詢
  • 支持長時間運行的查詢
    • 容錯支持,避免某些任務失敗后的查詢重啟
    • 動態調度,處理和異構集群節點故障
  • ETL
    • ETL 可實現不同數據格式之間的轉換
    • 支持多種文件格式,如 CSV、RCFile 和 RowFile
  • 擴展性
    • 支持用戶自定義函數
    • 提供自定義文件格式的 Scanner/Appender 接口
  • 兼容性
    • 遵循 ANSI/ISO SQL 標準,非標準方面遵循 PostgreSQL 規范
    • 支持 HiveQL 模式
    • 在 HCatalog 和 Hive MetaStore 實現表訪問
    • 支持 JDBC 驅動
  • 簡單
    • 提供交互式 Shell 來提交 SQL 查詢到 Tajo 集群
    • 提供備份和恢復工具
    • 異步/同步 Java API 來提交 SQL 查詢到 Tajo 集群

     

    項目主頁:http://www.baiduhome.net/lib/view/home/1385026644562

     本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
     轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
     本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!