分布式數據倉庫系統：Apache Tajo

jopen 12年前發布 | 49K 次閱讀數據挖掘 Apache Tajo

Tajo 是一個基于 Hadoop 實現的分布式數據倉庫系統，特點是低延遲、高可伸縮，提供專用查詢和針對存儲在HDFS上的大數據集和其他數據源的ETL 工具。

特點：

可伸縮性和低延遲
- 完全分布式的 SQL 查詢處理，基于存儲雨 HDFS 的大數據集
- 超低響應時間（約100毫秒），在合理數據范圍內的簡單查詢
支持長時間運行的查詢
- 容錯支持，避免某些任務失敗后的查詢重啟
- 動態調度，處理和異構集群節點故障
ETL
- ETL 可實現不同數據格式之間的轉換
- 支持多種文件格式，如 CSV、RCFile 和 RowFile
擴展性
- 支持用戶自定義函數
- 提供自定義文件格式的 Scanner/Appender 接口
兼容性
- 遵循 ANSI/ISO SQL 標準，非標準方面遵循 PostgreSQL 規范
- 支持 HiveQL 模式
- 在 HCatalog 和 Hive MetaStore 實現表訪問
- 支持 JDBC 驅動
簡單
- 提供交互式 Shell 來提交 SQL 查詢到 Tajo 集群
- 提供備份和恢復工具
- 異步/同步 Java API 來提交 SQL 查詢到 Tajo 集群

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！