Apache Spark 的持續增長

jopen 9年前發布 | 19K 次閱讀 Apache Spark

這周,快速發展的Apache Spark社區在紐約聚集,為了慶祝成為當今最受歡迎的開源項目之一。

2009年,Spark項目在UC伯克利的AMPLab啟動,在過去的一年半里,Apache Spark迅速流行起來。在2014年,Spark已經擁有超過465名的代碼貢獻者,使得它成為Apache Software Fundation中以及關于大數據開源項目中最活躍的項目。

早些時候,我們主要依賴于自己的集群計算平臺,而不是像在scratch平臺上編寫自己的軟件。

Spark基于內存和并行處理的能力使得它在運行項目時比hadoop MapReduce在內存中計算快100倍,在硬盤數據處理上快10倍,這使得大量的數據可以一次性協作處理。

根據 Gartner 的調查, 73% 的組織會在 2016 年投資大數據,不過目前它們中的多數都無法實現該承諾,因為它們沒法處理(后文丟失?)

Spark 現在已是廣為人知。它2014 Gray Sort Benchmark 排序大賽中的 Daytona 100TB 組贏得獎項,并創造了新的排序世界紀錄。

除了對大數據的處理之外,Spark 還擁有其他好處,比如兼容 Hadoop,簡化主流語言(Java,Python,Scala 和 SQL)下的接口編程,支持結構化和非結構化數據,機器學習以及數據挖掘。

與 Spark 進行深度集成的企業應用,可以執行大規模的跨部門的數據遍歷和處理,這種方式在以前是不可想象的。有了這種技術,我們可以輕松瀏覽企業內部各處的數據,即使新的數據聚合得越來越多。

按行業劃分早期使用者

按行業劃分Spark的早期使用者包括消費性包裝品(CPG),保險、媒體、娛樂、制藥、零售商和汽車行業,基本上包括所有焦點集中在用戶的行業。

在消費性包裝品(CPG)行業的用戶分析為Spark呈現出一個理想的案例。獲取用戶的見解和動機對消費性包裝品(CPG)行業高管來說是最重要的。大部 分傳統行業僅限于從幾個不同的來源獲取孤立的產品和用戶信息。然而,快速理解用戶反饋對在線產品銷售、線上線下結合趨勢以及基于地理位置差異來對來用戶做 一個更好的理解,這樣將最終帶來更好的銷售。

快速周期分析和更快速的洞察力提供一個接近實時的視圖,它最大化地提供了本地銷售的供應鏈信息。混合的異構數據集來源于諸如ERP和供應鏈系統,連 同像Dun & Bradstreet這樣的擴展數據幫助發現更深層次的消費者需求。在訪問速度上,可以收斂和分析更多私人信息,收獲更多優質的數據源,品牌經理獲得了更 多的操作性,整體上觀察可以更快地看到每日的分析,協同決策。

同樣地,數據正驅動著醫療和醫藥行業,更快和更全面地提升診斷到治療的速度曲 線。Apache Spark的使用讓用戶們處理更大容量的數據而不用延誤,關聯數據對的系統模式更新醫院護理人員對任何致命疾病的診斷。這個早期預警系 統不僅僅挽救了生命,還通過節省藥物減少了在醫藥上的花費,還有實驗室測試和其他花費。

盡管Spark獲得了很多關注,我還是需要謹記開放,分布式計算框架仍然是一個復雜的巨獸。一個純凈的基于Spark的應用需要很寬泛的技能,也需要掌握大量的細節,還要很強的動手能力去創建和維護一個完全的解決方案去解決任何特定的問題集合。

進化版的Spark項目意味著在企業級數據智能上的創新并聚焦于:

挖掘數據的洞口

為了獲得更多來自不同源的數據,我們創建很多倉筒(silo),這是不同類型信息自然的停留地點。還有一個事實形成的數據湖泊,在企業中的數據“堆”是不會在某種情形中被拋棄的。

一個純凈的基于Spark的解決方案并不能履行在大數據上的承諾。Spark的大門是打開的,但是真正要履行承諾還是要解決大數據的速度,公司必須聯合Spark在后端對API改進,諸如,彈性伸縮,工作調度,工作負載管理等等。

到2016年,我們期望各個行業的企業理解Spark快速周期分析的價值,用交付由數據驅動的思想去幫助變革,這樣我們的社會會更適于生活和工作。

通過在Apache Spark上建立數據智能平臺,讓公司和組織擁有了新的能力,并使其在時間上擁有了重要的優勢,這樣他們就可以更積極地投入到與同行的市場競爭中去。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!