Apache Spark不過時的六大理由
英文原文:6 Reasons That Apache Spark Isn't Flickering Out
在極短的時間內,Apache Spark 迅速成長為大數據分析的技術核心。這就使得保守派擔心在這個技術更新如此之快的年代它是否會同樣快的被淘汰呢。我反而卻堅信,spark 僅僅是嶄露頭角。
在過去的幾年時間,隨著 Hadoop 技術爆炸和大數據逐漸占據主流地位,幾件事情逐漸明晰:
- 對所有數據而言,Hadoop 分布式文件系統(HDFS)是一個直接存儲平臺。
- YARN (負責資源分配和管理)是大數據環境下一個適用的架構。
- 或許是最為重要的一點,目前并不存在一個能解決所有問題的框架結構。盡管 MapReduce 是一項非常了不起的技術,但是它仍不能解決所有問題。 </ol>
然而,Spark 卻可以解決大數據時代中很多關鍵問題,推動大數據以驚人的速度發展。這就是盡管其還很年輕,我們的“Big Data Discovery”平臺依舊使用 Apache spark 作為底層技術來處理和分析大數據的原因。
Spark 時代即將到來
在尋找關鍵問題的答案時,基于 Hadoop 的架構需要調用的多種基礎設施和進程來進行分析。他們需要已有的數據,描述性的分析,搜索和更先進的技術,如機器學習,甚至是圖形處理。
公司需要這樣一個工具,該工具可以讓他們充分利用現有技術和資源。至今,尚未存在可以滿足上述所有標準的單一處理框架結構。然而,這卻是 Spark 的最為基本優勢,為處理大數據業務的公司提供跨越六個關鍵領域的技術支持。
1. 高級分析
許多大型的創新性公司正在尋求增強他們的高級分析能力。然而,在最近紐約的一次大數據分析會議中,只有 20% 的參與者表示目前正在公司里部署高級分析。
剩下的 80% 表示他們正忙于準備數據和提供基本分析。少數科學家花費了大量時間來實施和管理描述分析。Spark 為高級分析提供了一個開箱即用的框架,包括加速查詢工具,機器學習庫,圖形處理引擎和流分析引擎。
與 MapReduce 試圖實現這些分析相比——MapReduce 幾乎不可能實現,甚至說很難找到此類數據科學家——Spark 提供了更容易且更快上手的預編譯庫。這就使得數據科學家可以把任務放在準備數據和保障數據質量之外了。通過 Spark 他們甚至可以確保分析結果的正確解釋。
2. 簡化
最早對 Hadoop 的批評不僅僅是它很難使用,而是更難找到會使用它的人。盡管進過后續的迭代后,它變的更加簡化和強大,但抱怨聲至今未息。
相對于要求用戶理解各類復雜的情況,例如 Java 和 MapReduce 編程模式,凡具有一些數據庫基本知識和一些腳本技能(在 Python 或者 Scala)均可以使用 Spark。對于企業而言,能夠更容易的找到理解數據并使用工具處理數據的工程師。對供應商而言,我們可以在 Spark 的上層有所發展并給企業帶來更快的創新。
3. 多種語言
SQL 語言無法應對大數據分析的面臨的所有挑戰,至少但依靠它是無法應對的。因此我們需要在解決這個問題上保持更多的靈活性,在組織和檢索數據中應有更多的選項,并能快速的將其移動到另一個分析框架中。
Spark 保留了 SQL 語言的模式,采用最快最簡潔的方式進行數據分析,不管是什么類型的數據。
4. 更快的結果
隨著商業業務的不斷加快,所以對實時結果的要求是十分必要的。在內存處理上,Spark 提供了并行處理的方式使得返回的結果比其他任何其他訪問磁盤的方法快了幾倍。實時結果去掉延遲后可以顯著的減緩商業進程和增量分析。
供應商開始在 sparkj 上開發應用程序,在工作流程分析上將會出現巨大的進步。加速周轉時間意味著分析師可以迭代工作,使得答案更加完整精確。Spark 讓分析師去做他們的本職工作--——更快且好的尋求答案。
5. 不歧視或偏愛的 Hadoop 供應商
Spark 兼容現行所有的 Hadoop 版本,并有很好的緣由:它是中立的供應商,這意味著它不需要用戶去綁定任何特定的供應商。
由于 Spark 的開源特性,企業可以自由創建基于 Spark 析基礎設施而不用擔心會其他事情發生什,即便他們改變 Hadoop 供應商。如果他們做了什么改變,分析架構也會隨之變化。
6. 高增性
Apache Spark 在極短的時間內取得極大的增長。到 2014 年為止,Spark 在 Daytona Gray Sort 100TB Benchmark. 中世界第一。不管是服務、產品抑或技術一旦被迅速關注后,人們通常急于將其搞清楚——如何抑制其炒作,揭示其缺陷或揭穿其的承諾。但根據最近的一項調查顯示,人們對 Spark 的關注仍在增長。
覆蓋超過 2100 產品開發人員的報告顯示,71% 的受訪者有過 Spark 框架開發經驗。如今,它已經擁有多達 500 多個不同規模的組織,成千上萬的開發者和廣泛的資源項目參與其中。Spark 作為大數據分析的基本技術之一尚未確定自身的地位,但它已著手去做。換句話說,這僅僅只是開始。
翻譯/劉崇鑫審校/魏偉