超越Hadoop的大數據分析之圖形處理尺寸
本文翻譯自《 BIG DATA ANALYTICS BEYOND HADOOP 》譯者:許巧輝
另一個來自Google的重要工具,看起來超越了Hadoop MR——Pregel框架實現了圖形計算(Malewicez et al.2010)。在Pregel中的計算是由一系列迭代組成的,被稱為supersteps。圖上的每個頂點都與一個用戶定義的計算函數相關 聯;Pregel確保每個superstep在圖的每條邊上并發調用用戶定義的計算函數。頂點可通過邊發送消息,并且頂點間可交換值。這也是個全局同步 ——所有操作必須在用戶定義的函數結束后才能繼續。熟悉BSP的讀者可以看出為什么Pregel是BSP優秀的例子——一組實體在用戶定義的函數中使用全 局鎖并行計算,并且能夠進行消息交換。
Apache Hama (Seo et al. 2010)相當于開源的Pregel,一種BSP的實現。Hama在HDFS和微軟的Dryad引擎之上 實現了BSP。大概是因為他們不希望被認為他們與Hadoop的社區之間有所不同。但重要的是,BSP本質上是一種適合迭代計算的范例,而且Hama擁有 CGD的并行實現,這是Hadoop不容易實現的。必須指出的是,Hama的BSP引擎是在MPI之上實現的,這是并行編程文學的鼻祖( www.mcs.anl.gov/research/projects/mpi/ )。Apache Giraph, Golden Orb, 還有Stanford GPS項目的靈感也來自Pregel。
GraphLab (Gonzalez et al. 2012)已經成為現代化圖形處理的范例。GraphLab起源于華盛頓大學和卡內基梅隆大學(CMU)的學術項目。GraphLab提供跨集群節點處理 圖形的有用抽象。PowerGraph,GraphLab的后續版,使得它有效地處理自然圖形或冪律圖——這是有大量不良連接點和少量良好連接點的圖。 推ter上關于頁面排名和三角形計數問題的性能評估已驗證GraphLab比其他方法更有效率。本書的重點主要是Giraph,GraphLab及 其相關方面。
表1.1對各種范例的非功能特性進行了比較,如可擴展性、容錯機制和已實現的算法。由此可推斷出,盡管傳統工具只工作在單個節點上,不可能做橫向擴 展,也有可能出現單點故障,近期重構方面的努力搶劫它們跨代遷移。值得注意的是,大多數圖形處理范例并沒有容錯機制,然而Spark和Hadoop是其中 提供容錯機制的第三代工具。
(全文完)如果您喜歡此文請點贊,分享,評論。