分布式數據倉庫系統:Apache Tajo
Tajo 是一個基于 Hadoop 實現的分布式數據倉庫系統,特點是低延遲、高可伸縮,提供專用查詢和針對存儲在HDFS上的大數據集和其他數據源的ETL 工具。
特點:
- 可伸縮性和低延遲
- 完全分布式的 SQL 查詢處理,基于存儲雨 HDFS 的大數據集
- 超低響應時間(約100毫秒),在合理數據范圍內的簡單查詢
- 支持長時間運行的查詢
- 容錯支持,避免某些任務失敗后的查詢重啟
- 動態調度,處理和異構集群節點故障
- ETL
- ETL 可實現不同數據格式之間的轉換
- 支持多種文件格式,如 CSV、RCFile 和 RowFile
- 擴展性
- 支持用戶自定義函數
- 提供自定義文件格式的 Scanner/Appender 接口
- 兼容性
- 遵循 ANSI/ISO SQL 標準,非標準方面遵循 PostgreSQL 規范
- 支持 HiveQL 模式
- 在 HCatalog 和 Hive MetaStore 實現表訪問
- 支持 JDBC 驅動
- 簡單
- 提供交互式 Shell 來提交 SQL 查詢到 Tajo 集群
- 提供備份和恢復工具
- 異步/同步 Java API 來提交 SQL 查詢到 Tajo 集群
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!