Astro - 華為開源 HBase 的 Spark SQL

jopen 10年前發布 | 29K 次閱讀 Astro NoSQL數據庫

華為2015年7月20日在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式開源。Spark SQL on HBase package 項目又名 Astro，端到端整合了 Spark，Spark SQL和HBase的能力，有助于推動幫助Spark進入NoSQL的廣泛客戶群，并提供強大的在線查詢和分析以及在垂直企業大規模數據處理能力。

Apache HBase 是數據在 HDFS 上的 Key-Value 存儲。它用來給 Google 的 Big Table 建模，并提供了 API 用于查詢數據。這些數據通過它的“row keys”來組織、區分和發布。在每個分區上，數據被指定的“列”數據集合“列族”物理分區。這些數據模型是寬且零散的，在這些表中列是動態的，零散的。

盡管 HBase 是非常有用的大數據存儲，但是它的訪問機制非常原始，只能通過客戶端的 API，Map/Reduce 接口和交互的 shell。SQL 訪問 HBase 數據可通過 Map/Reduce 或者接口機制，如 Apache Hive 和 Impala，或者一些“本地的” SQL 技術，如 Apache Phoenix。前者實現和使用起來通常比較便宜，它們的延遲和效率通常不如后者，并且只適用于離線分析。后者，與之相反，通常執行得更好，并且限定多個作為聯機引擎。它們通常在特定的執行引擎的頂層。

當前的 Astro 1.0 依賴于 Spark 1.4.0,HBase 0.98

構建方法（要求 Maven）：

$ git clone https://github.com/HuaweiBigData/astro
$ cd astro
$ mvn -DskipTests clean install 
$ mvn clean install
$mvn -Phbase,hadoop-2.4 test  #運行測試

項目主頁：http://www.baiduhome.net/lib/view/home/1444961551294

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1444961551294.html

Astro NoSQL數據庫

Astro - 華為開源 HBase 的 Spark SQL

相關經驗

相關資訊

相關文檔

目錄