含 Apache Spark 的 Lambda 架構

wwang1969 9年前發布 | 10K 次閱讀 Spark 分布式/云計算/大數據

目標

市場上很多玩家已經建造了MapReduce工作流用來日常處理兆兆字節的歷史數據。但是誰愿意等待24小時來拿到更新后的分析報告？這篇文章會向你介紹 Lambda Architecture ，它被設計出來既可以利用批量處理方法，也可以使用流式處理方法。這樣我們就可以利用Apache Spark(核心, SQL, 流)，Apache Parquet，推ter Stream等工具處理實時流式數據，實現對歷史數據的快速訪問。代碼簡潔干凈，而且附上直接明了的實例!

Apache Hadoop: 簡要歷史

Apache Hadoop的豐富歷史開始于大約2002年。Hadoop是Doug Cutting創立的, 他也是Apache Lucene這一被廣泛使用的文本檢索庫的創造者. Hadoop的起源與Apache Nutch有關, Apache Nutch是一個開源的web搜索引擎 , 本身也是Lucene項目的一部分. Apache Nutch在大約10年前成為一個獨立的項目 .

事實上,許多用戶實現了成功的基于HadoopM/R的通道,一直運行到現在.現實生活中我至少能舉出好幾個例子:

Oozie協調下的工作流每日運行和處理多達8TB數據并生成分析報告
bash管理的工作流每日運行和處理多達8TB數據并生成分析報告

現在是2016年了!

商業現實已經改變，所以做出長遠的決定變得更有價值。除此以外，技術本身也在演化進步。Kafka, Storm, Trident, Samza, Spark, Flink, Parquet, Avro, Cloud providers等時髦的技術被工程師們和在商業上廣泛使用.

因此，現代基于Hadoop的 M/R通道 (以及Kafka，現代的二進制形式如Avro和數據倉庫等。在本例中Amazon Redshift用作ad-hoc查詢) 可能看起來像這樣:

以上M/R通道看起來很不錯，但是它仍然是傳統上具有許多缺點的批處理。由于在新數據不斷進入系統時，批處理過程通常需要花費很多時間來完成，它們主要是提供給終端用戶的乏味的數據罷了。

Lambda 架構

Nathan Marz 為通用，可擴展和容錯性強的數據處理架構想出了一個術語 Lambda架構。這個數據架構結合了批處理和流處理方法的優點來處理大批量數據。

我強烈推薦閱讀 Nathan Marz 的書，這本書從源碼角度對Lambda架構進行了完美的詮釋。

層結構

從頂層來看，這是層的結構：

所有進入系統的數據被分配到了批處理層和高速層來處理。批處理層管理著主數據集（一個不可修改，只能新增的原始數據）和預計算批處理視圖。服務層索引批處理視圖，因此可以對它們進行低延時的臨時查詢。高速層只處理近期的數據。任何輸入的查詢結果都合并了批處理視圖和實時視圖的查詢結果。

焦點

許多工程師認為 Lambda架構就包含這些層和定義數據流程，但是 Nathan Marz 在他的書中把焦點放在了其他重要的地方，如：

分布式思想
避免增量架構
關注數據的不可變性
創建再計算算法

數據的相關性

正如前面所提到的，任何輸入的查詢結果都會從批處理視圖和實時視圖的查詢結果返回，因此這些視圖需要被合并。在這里，需要注意的一點是，一個實時視圖是上一個實時視圖和新的數據增量的函數，因此一個增量算法可以在這里使用。批處理視圖是所有數據的視圖，因此再計算算法可以在這里使用。

均衡取舍

我們生活中的一切問題都存在權衡，Lambda架構（ Lambda Architecture ）不例外。通常，我們需要解決幾個主要的權衡：

完全重新計算vs.部分重新計算
- 某些情況下，可以考慮使用Bloom過濾器來避免完全重新計算
</li>
重算算法 vs. 增量算法
- 使用增量算法是個很大的誘惑，但參考指南，我們必須使用重算算法，即使它更難得到相同的結果
- 加法算法 vs. 近似算法
  - Lambda Architecture 能與加法算法很好地協同工作。因此，在另一種情況下，我們需要考慮使用近似算法，例如，使用HyperLogLog處理 count-distinct 的問題等。


                    
                         本文由用戶 wwang1969 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。
                         轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。
                         本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！
                         本文地址：http://www.baiduhome.net/lib/view/open1478759586833.html
                         Spark 分布式/云計算/大數據

含 Apache Spark 的 Lambda 架構

目標

Apache Hadoop: 簡要歷史

現在是2016年了!

Lambda 架構

層結構

焦點

數據的相關性

均衡取舍

實現

示例應用

成果

本章結語

相關經驗

相關資訊

相關文檔

目錄