Astro - 華為開源 HBase 的 Spark SQL

jopen 9年前發布 | 29K 次閱讀 Astro NoSQL數據庫

華為2015年7月20日在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式開源。Spark SQL on HBase package 項目又名 Astro,端到端整合了 Spark,Spark SQL和HBase的能力,有助于推動幫助Spark進入NoSQL的廣泛客戶群,并提供強大的在線查詢和分析以及在垂直企業大規模數據處理能力。

Apache HBase 是數據在 HDFS 上的 Key-Value 存儲。它用來給 Google 的 Big Table 建模,并提供了 API 用于查詢數據。這些數據通過它的“row keys”來組織、區分和發布。在每個分區上,數據被指定的“列”數據集合“列族”物理分區。這些數據模型是寬且零散的,在這些表中列是動態的,零散的。

盡管 HBase 是非常有用的大數據存儲,但是它的訪問機制非常原始,只能通過客戶端的 API,Map/Reduce 接口和交互的 shell。SQL 訪問 HBase 數據可通過 Map/Reduce 或者接口機制,如 Apache Hive 和 Impala,或者一些“本地的” SQL 技術,如 Apache Phoenix。前者實現和使用起來通常比較便宜,它們的延遲和效率通常不如后者,并且只適用于離線分析。后者,與之相反,通常執行得更好,并且限定多個作為聯機引擎。它們通常在特定的執行引擎的頂層。

當前的 Astro 1.0 依賴于 Spark 1.4.0,HBase 0.98

構建方法(要求 Maven):

$ git clone https://github.com/HuaweiBigData/astro
$ cd astro
$ mvn -DskipTests clean install 
$ mvn clean install
$mvn -Phbase,hadoop-2.4 test  #運行測試

項目主頁:http://www.baiduhome.net/lib/view/home/1444961551294

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!