LinkedIn工程經理眼中的數據世界格局

jopen 9年前發布 | 12K 次閱讀 數據

 

本報道根據LinkedIn工程經理Hien Luu在 ArchSummit深圳2015 的主題演講內容整理而成。該主題演講《大數據趨勢》從三個層面分享了Hien對于大數據行業發展的觀察與理解,分別是:

  • 數據技術在業務需求——無論是生活還是商政方面——在近年來的巨大變化
  • 現代數據技術的重要里程碑
  • 數據技術以及它們在解決業務需求的時候正在面臨的挑戰,以及未來的一些可能出現的趨勢

嘉賓簡介

Hien Luu,目前在LinkedIn領導團隊構建大數據應用及基礎設施,負責細分與定位平臺、工作流與調度系統。有20余年工作經驗,Apache Pig項目貢獻者。在大數據應用與基于Web的可擴展應用領域擁有豐富的設計與構建經驗。在大數據、Web應用框架、云計算、RESTful Web服務和加密等領域都有很豐富的經驗。作為軟件工程師和技術領導交付了很多成功的軟件。熱愛構建可伸縮、高可用的系統。

世界對數據技術的需求

當前,全球每日產生的數據量大約為1.5 EB。目前全球所有的數據里,有90%都是在過去兩年內生成的;而且在未來,預計每兩年的數據量都會翻倍增長。

1.5 EB是個什么概念?10 TB大約是國會圖書館內所有3700萬藏書的信息量;1 PB是1000 TB,50 PB大約是全人類有史以來所有書寫內容的信息量;1 EB是1000 PB,5 EB大約是全人類有史以來所有說過的話語的信息量。現在整個互聯網的信息量大約是YB級,就是EB之上的ZB之上的一個數量級,現在像是NSA那種規模的 數據中心能夠容納這個數量級的數據。

這些數據都是哪兒來的?非死book現在是300 PB的量級,Amazon大約是EB級,Google大約是10 EB級,而這些數據都是來自我們每一個人的貢獻。而現在所被頻繁討論的物聯網,則每一個物品都有一個獨特的識別,它們將會數量龐大,以更快的速度制造更多 的數據。比如,Google自動駕駛汽車不間斷的從激光感應器、雷達、方位感應器等傳感器收集數據并進行實時處理,每輛車收集的數據量達到每秒1GB。 GE的飛機引擎,每一個引擎平均在一次飛行中就會產生1TB的數據,而一個引擎每年能消耗價值2000億美金的燃油。而對于GE這樣龐大的企業,即使是 1%的燃油節省、1%的效率提升,都意味著巨大的節省。

數據就是21世紀的原油,需要加工才能產生價值。我們用數據做什么?怎樣帶來價值?目前常見的大概有五個方向:預測,推薦,問題識別,個性化, 以及參考。預測,尤其是近期預測,以Google Flu Trends為代表,結合歷史數據推斷近期是否會爆發流感。內容推薦,以Netflix為代表,他們當時為電影評分推薦引擎專門設置了一個獎項。問題識 別,如城市堵車問題,有一家叫做Inrix的公司在37個國家提供實時交通信息。個性化,以LinkedIn的Economic Graph為代表。公共參考這一塊,我很欣賞的一個非盈利組織DataKind做得很不錯,他們在全球很多國家都提供數據點,涉及饑餓問題、氣候問題等。 另外美國政府在數據這方面也有很大投入,他們聘請了DJ Patil作為首席數據科學家,也建立了data.gov網站公布很多政務信息。

現代數據技術的重要里程碑

大數據時代可以說是從2003年Google兩篇論文的公布開始的,一篇是Google File System,另一篇則是MapReduce。這兩個方面的研究都是為了解決Google在搜索和索引當中遇到的數據問題,后來促生了2006年Hadoop的誕生。

Hadoop最大的特點就是數據處理的民主化(分布決策),對于部分系統失效的情況能夠較好的處理。喜歡上Hadoop的開發者們很快就在 Hadoop的基礎上創建了新的抽象層,如Hive和Cascading等,不過Hadoop 1.0仍然有很多局限性,最大的兩個局限性就是擴展性問題和資源配置的效率問題。這兩個問題到了Hadoop 2.0就好了很多。

Hadoop只是一個框架,提供了數據處理能力,而用戶需要的是解決方案。在用戶需求的推動下,又促生了諸如Hortonworks這樣的公司。

2010年,AMPlab推出的Spark又帶來了重大的改變。其有三個特點最令人興奮,一是速度(內存計算),二是通用性(是一個支持各種數據類型的通用引擎),三是易用性(API容易上手且提供多個流行語言的版本)。

對于Spark的性能,2014年有一次基準測試的數據,100TB的數據在23分鐘內完成處理,比Hadoop要快數倍。而且在資源使用方面,更是只有Hadoop的十分之一(206 vs 2100)。

將這些框架和能力做成解決方案,如何做得靈活又能夠容錯,就是一個系統架構的問題了。現在一個架構模式是Lambda架構,其中有三個設計原 則,一個就是能夠對人類的錯誤進行容錯(因為是人總會犯錯),讓人類的錯誤不會造成數據破壞、數據丟失,第二個是數據的不變性,三是保留原始的數據,以后 可以再進行其他的處理計算。

Lambda架構包括三部分。數據來的時候會送到Speed Layer,下面是Batch Layer,再往下是Service Layer用于服務Batch Layer。

數據技術正在面臨的挑戰以及未來可能的趨勢

一個挑戰是把不同來源的數據進行更高效的整合。一個挑戰是缺乏分析的技能,因為這個領域目前還缺乏人才,預計到2018年數據科學家的缺口會達 到150萬,但是越來越多的大學已經在提供這方面的碩士課程。另一個是數據在剛剛被制造出來的時候是更有價值的,即實時數據的價值高于歷史數據,所以快速 處理數據的能力也是一個挑戰,不僅要快、要高效率,還要支持大規模。

其他的挑戰還有文化方面的,要在公司內部建立數據驅動的文化,存儲、收集、分析數據的文化。

還有一個趨勢是數據科學即服務。其實現在已經有一些,比如Amazon Maching Learning Service,Google Prediction API等等,但能做的事情還很有限,這里的難度還是很高的。

下一個大數據的創新是Prediction Phase,機器學習將無所不在。數據越來越多,機器學習的效果就越好,會逐漸的提升。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!