LinkedIn工程經理眼中的數據世界格局

jopen 10年前發布 | 12K 次閱讀數據

原文 http://www.infoq.com/cn/news/2015/07/linkedin-bigdata

本報道根據LinkedIn工程經理Hien Luu在 ArchSummit深圳2015 的主題演講內容整理而成。該主題演講《大數據趨勢》從三個層面分享了Hien對于大數據行業發展的觀察與理解，分別是：

數據技術在業務需求——無論是生活還是商政方面——在近年來的巨大變化
現代數據技術的重要里程碑
數據技術以及它們在解決業務需求的時候正在面臨的挑戰，以及未來的一些可能出現的趨勢

嘉賓簡介

Hien Luu，目前在LinkedIn領導團隊構建大數據應用及基礎設施，負責細分與定位平臺、工作流與調度系統。有20余年工作經驗，Apache Pig項目貢獻者。在大數據應用與基于Web的可擴展應用領域擁有豐富的設計與構建經驗。在大數據、Web應用框架、云計算、RESTful Web服務和加密等領域都有很豐富的經驗。作為軟件工程師和技術領導交付了很多成功的軟件。熱愛構建可伸縮、高可用的系統。

世界對數據技術的需求

當前，全球每日產生的數據量大約為1.5 EB。目前全球所有的數據里，有90%都是在過去兩年內生成的；而且在未來，預計每兩年的數據量都會翻倍增長。

1.5 EB是個什么概念？10 TB大約是國會圖書館內所有3700萬藏書的信息量；1 PB是1000 TB，50 PB大約是全人類有史以來所有書寫內容的信息量；1 EB是1000 PB，5 EB大約是全人類有史以來所有說過的話語的信息量。現在整個互聯網的信息量大約是YB級，就是EB之上的ZB之上的一個數量級，現在像是NSA那種規模的數據中心能夠容納這個數量級的數據。

這些數據都是哪兒來的？非死book現在是300 PB的量級，Amazon大約是EB級，Google大約是10 EB級，而這些數據都是來自我們每一個人的貢獻。而現在所被頻繁討論的物聯網，則每一個物品都有一個獨特的識別，它們將會數量龐大，以更快的速度制造更多的數據。比如，Google自動駕駛汽車不間斷的從激光感應器、雷達、方位感應器等傳感器收集數據并進行實時處理，每輛車收集的數據量達到每秒1GB。 GE的飛機引擎，每一個引擎平均在一次飛行中就會產生1TB的數據，而一個引擎每年能消耗價值2000億美金的燃油。而對于GE這樣龐大的企業，即使是 1%的燃油節省、1%的效率提升，都意味著巨大的節省。

數據就是21世紀的原油，需要加工才能產生價值。我們用數據做什么？怎樣帶來價值？目前常見的大概有五個方向：預測，推薦，問題識別，個性化，以及參考。預測，尤其是近期預測，以Google Flu Trends為代表，結合歷史數據推斷近期是否會爆發流感。內容推薦，以Netflix為代表，他們當時為電影評分推薦引擎專門設置了一個獎項。問題識別，如城市堵車問題，有一家叫做Inrix的公司在37個國家提供實時交通信息。個性化，以LinkedIn的Economic Graph為代表。公共參考這一塊，我很欣賞的一個非盈利組織DataKind做得很不錯，他們在全球很多國家都提供數據點，涉及饑餓問題、氣候問題等。另外美國政府在數據這方面也有很大投入，他們聘請了DJ Patil作為首席數據科學家，也建立了data.gov網站公布很多政務信息。

現代數據技術的重要里程碑

大數據時代可以說是從2003年Google兩篇論文的公布開始的，一篇是Google File System，另一篇則是MapReduce。這兩個方面的研究都是為了解決Google在搜索和索引當中遇到的數據問題，后來促生了2006年Hadoop的誕生。

Hadoop最大的特點就是數據處理的民主化（分布決策），對于部分系統失效的情況能夠較好的處理。喜歡上Hadoop的開發者們很快就在 Hadoop的基礎上創建了新的抽象層，如Hive和Cascading等，不過Hadoop 1.0仍然有很多局限性，最大的兩個局限性就是擴展性問題和資源配置的效率問題。這兩個問題到了Hadoop 2.0就好了很多。

Hadoop只是一個框架，提供了數據處理能力，而用戶需要的是解決方案。在用戶需求的推動下，又促生了諸如Hortonworks這樣的公司。

2010年，AMPlab推出的Spark又帶來了重大的改變。其有三個特點最令人興奮，一是速度（內存計算），二是通用性（是一個支持各種數據類型的通用引擎），三是易用性（API容易上手且提供多個流行語言的版本）。

對于Spark的性能，2014年有一次基準測試的數據，100TB的數據在23分鐘內完成處理，比Hadoop要快數倍。而且在資源使用方面，更是只有Hadoop的十分之一（206 vs 2100）。

將這些框架和能力做成解決方案，如何做得靈活又能夠容錯，就是一個系統架構的問題了。現在一個架構模式是Lambda架構，其中有三個設計原則，一個就是能夠對人類的錯誤進行容錯（因為是人總會犯錯），讓人類的錯誤不會造成數據破壞、數據丟失，第二個是數據的不變性，三是保留原始的數據，以后可以再進行其他的處理計算。

Lambda架構包括三部分。數據來的時候會送到Speed Layer，下面是Batch Layer，再往下是Service Layer用于服務Batch Layer。

數據技術正在面臨的挑戰以及未來可能的趨勢

一個挑戰是把不同來源的數據進行更高效的整合。一個挑戰是缺乏分析的技能，因為這個領域目前還缺乏人才，預計到2018年數據科學家的缺口會達到150萬，但是越來越多的大學已經在提供這方面的碩士課程。另一個是數據在剛剛被制造出來的時候是更有價值的，即實時數據的價值高于歷史數據，所以快速處理數據的能力也是一個挑戰，不僅要快、要高效率，還要支持大規模。

其他的挑戰還有文化方面的，要在公司內部建立數據驅動的文化，存儲、收集、分析數據的文化。

還有一個趨勢是數據科學即服務。其實現在已經有一些，比如Amazon Maching Learning Service，Google Prediction API等等，但能做的事情還很有限，這里的難度還是很高的。

下一個大數據的創新是Prediction Phase，機器學習將無所不在。數據越來越多，機器學習的效果就越好，會逐漸的提升。

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/17249f7

數據

LinkedIn工程經理眼中的數據世界格局

嘉賓簡介

世界對數據技術的需求

現代數據技術的重要里程碑

數據技術正在面臨的挑戰以及未來可能的趨勢

相關資訊

相關經驗

相關文檔