Pivotal開源基于PostgreSQL的數據庫Greenplum

jopen 9年前發布 | 12K 次閱讀 PostgreSQL

 

近日,Pivotal 宣布 開源大規模并行處理(MPP)數據庫Greenplum,其架構是針對大型分析型數據倉庫和商業智能工作負載專門設計的。借助MPP這種高性能的系統架構,Greenplum可以將TB級的數據倉庫負載分解,并使用所有的系統資源并行處理單個查詢。

Greenplum數據庫基于PostgreSQL開源技術。本質上講,它是多個PostgreSQL實例一起充當一個數據庫管理系統。 Greenplum以PostgreSQL 8.2.15為基礎構建,在SQL支持、特性、配置選項和終端用戶功能方面非常像PostgreSQL,用戶操作Greenplum就跟平常操作 PostgreSQL一樣。不過,為了支持Greenplum數據庫的并發結構,PostgreSQL的內部構件經過了修補。例如,為了在所有并行的 PostgreSQL數據實例上并發執行查詢,系統目錄、優化器、查詢執行器以及事務管理器組件都經過了修改和增強。此外,Greenplum還引入了針 對商業智能工作負載優化PostgreSQL的特性。例如,增加了并行數據加載、資源管理、查詢優化、存儲增強。這些功能是標準PostgreSQL所不 具備的。

Greenplum數據庫的架構如下:

Pivotal開源基于PostgreSQL的數據庫Greenplum

Greenplum master是Greenplum數據庫系統的入口,接受客戶端連接及提交的SQL語句,將工作負載分發給其它數據庫實例(segment實例),由它們 存儲和處理數據。Greenplum interconnect負責不同PostgreSQL實例之間的通信。Greenplum segment是獨立的PostgreSQL數據庫,每個segment存儲一部分數據。大部分查詢處理都由segment完成。

根據Pivotal的開源公告,他們希望Greenplum會成為一個重大的里程碑,永久改變數據倉庫這個行業。Greenplum數據庫與其它開源數據 處理系統(如Apache Hadoop、MySQL甚或PostgreSQL)的差別在架構和功能上都有體現。借助MPP,Greenplum在大型數據集上執行復雜SQL分析的 速度比他們測試過的任何一個方案都要快。而借助 下一代查詢優化技術 ,Greenplum帶來了其它開源方案中沒有的數據管理質量特性、升級和擴展能力。他們相信,這樣一款經過證明的、廣泛采用的數據倉庫開源將會在整個業 界引發巨大的連鎖反應。最重要的是,這降低了大規模實時數據分析的門檻,更多的公司可以參與到大數據所帶來的挑戰中來。

另據 InfoWorld報道 ,數據庫行業分析師Curt Monash 將Greenplum視為分析型RDBMS的真正競爭者 。而且,相比現有的產品(如 TeradataHP VerticaIBM NetezzaOracle Exadata ),其引入成本更低。Greenplum作為一項服務似乎是個再簡單不過的選擇。它有一個為人熟知的名字和廣泛的用戶基礎。MySQL或 PostgreSQL也通過類似的技術提供云端服務。但是,Greenplum真要展現出其優勢,需要做好兩個方面的工作:一是從現有的 Greenplum部署移植要簡單;二是有一個可行的發展路線,要么可以通過其它云托管產品富集數據,要么集成新興的分析技術,如Spark。

Hacker News 上,Pivotal Labs成員jacques_chester回答了多名網友的問題。網友tlrobinson提出:

為什么Greenplum以PostgreSQL 8.2為基礎,而不是更新的版本?

對此,jacques_chester解釋說,“那是因為Greenplum最初從該版本派生。”網友djokkataja的問題也是圍繞這一點:

現在有計劃嗎?Greenplum最終是否會與現行的PostgreSQL開發有同等的特性,或者Greenplum主要還是遵循自己的發展路線?

jacques_chester并沒有明確回答這個問題,只是說,這取決于許多因素。同時,他還指出:

Greenplum采用PostgreSQL Wire Protocol 。所有可以同PostgreSQL交互的工具都可以順暢地同Greenplum交互。

還有網友擔心Greenplum的單master會成為寫入瓶頸,jacques_chester答復說,這是 gpfdist 要解決的問題,只要正確使用,就可以實現批量并行加載,而且master不會成為瓶頸。

網友們還討論了Greenplum與ElasticSearch的差別,感興趣的讀者可以進一步閱讀。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!