對Hadoop目前使用情況的調查和采訪
英文原文:A Survey and Interview on How Hadoop Is Used Today
我們正生活在“大數據”的時代。在當今這個技術驅動的世界,計算能力、電子設備和 Internet 的可達性正在日益增長,同時比以往任何時候更多的數據正在被傳輸和收集。組織正在以驚人的速度產生數據。僅 非死book 自己每天就會收集 250 TB 的數據。Thompson Reuters News Analytics 顯示,現在數字數據的產生量比 2009 年接近 1 ZB(1 ZB 等同于一百萬 PB)的量增長了兩倍多,到 2015 年將有可能達到 7.9 ZB,到 2020 年則有可能會達到 35 ZB。
隨著組織已經開始收集并產生大量的數據,他們也開始認識到數據分析的優勢,但是他們也必須奮力地管理自己所擁有大量的信息。據 Alistair Croll 所說:
擁有大量數據但是沒有大量線索的公司將會被雖然擁有更少的數據但是有更多線索的創業公司所取代…
這意味著除非你的業務理解它所擁有的數據,否則它將不能與理解這些數據的企業競爭。企業已經意識到:分析與商業競爭、態勢感知、生產力、科學和 創新相關的大數據能夠獲得巨大的收益。同時現在大部分公司將 Hadoop 作為自己分析大數據和掌握大數據挑戰的一個主要工具。
根據 Hortonworks 的調查,Hadoop 現在已經被很多大型主流組織所部署(50% 的調查對象來自于收入超過$500M 的組織),這些組織分布在很多行業,包括:高科技、醫療保健、零售業、金融服務、政府和制造業。
大部分情況下,Hadoop 并不會替代已有的數據處理系統,而是作為已有產品的補充。Hadoop 通常會與已有的系統互補,它挖掘額外的業務數據,同時也是一個更加強大的分析系統讓你能夠更好地洞察業務信息從而獲得競爭優勢。54% 的調查對象正在利用 Hadoop 捕獲新型數據,同時還有 48% 的人打算這樣做。主要的新型數據包括:
- 服務日志數據,能夠讓 IT 部門更好地管理他們的基礎設施(64% 的調查對象已經這樣做了,同時還有 28% 正計劃這樣做)。
- 點擊流數據,能夠讓你更好地理解客戶是如何使用應用程序的(52.3% 的調查對象已經這樣做了,同時還有 37.4% 正計劃這樣做)。
- 社交媒體數據,能夠讓你了解公眾對公司的看法(36.5% 的調查對象已經這樣做了,同時還有 32.5% 正計劃這樣做)。
- 地理/位置數據,能夠用來分析旅行模式(30.8% 的調查對象已經這樣做了,同時還有 26.8% 正計劃這樣做)。
- 機器數據,能夠用來分析機器的使用情況(29.3% 的調查對象已經這樣做了,同時還有 33.3% 正計劃這樣做)。
根據調查,傳統數據的平均增長率大約是每年8%,而新型數據的增長率則超過了 85%,因此離開了 Hadoop 幾乎不可能收集并處理它們。
InfoQ 有幸能夠與 Hortonworks 公司的市場副總裁 David McJannet 一起討論該調查的結果。
InfoQ:根據此次調查的結果,好像 Hadoop 應用的更加廣泛但是深度卻不夠。好像越來越多的人正在開始使用 Hadoop,但是在很多情況下他們的使用僅限于大量數據的存儲和對這些數據執行簡單的 Hive/SQL 查詢。你認為這種趨勢將會繼續么?
McJannet:我認為 Hadoop 在某些行業中已經應用得非常深入:對于早期的采用者而言,Hadoop 是整體數據架構的基礎,同時這些公司現在也已經廣泛使用 Hadoop。但是在 2013 年我們發現它開始真正地擴大,這從 Hadoop Summit 的調查報告中就可以看出來。
讓我們思考一下驅動采用率迅速攀升的原因,我認為至少有 3 個明確的因素:
- 對 Hadoop 用例有了更好的理解。實際上這一點在調查結果中有所表現,結果顯示 2 個主要推動力是:(a)基于新型數據構建的新型分析系統,(b)作為整體架構的一部分管理長期增長的數據。
- 技術本身的快速發展繼續簡化了使用,同時也為大規模推廣創造了條件。Hadoop 2 在很多方面都有巨大的進步,同時它還吸收了廣大社區幾年來的工作。
- 市場上的供應商擁抱該生態系統。例如,Microsoft 所做的工作允許 Excel 用戶直接連接到 Hortonworks 數據平臺(HDP)上拉取數據進行分析。而更加復雜的分析通常會在 SAS 這樣的工具中完成,為了將 SAS 分析工具連接到 HDP 上他們作了非常深入的工作。這使得該工具的使用變得更加簡單,在很多情況下最終用戶甚至根本就不知道他們正在使用 Hadoop。
InfoQ:你認為應用 Hadoop 的下一步是什么?你會如何定義像 Hortonworks 這樣的公司或者供應商在該過程中的角色?
McJannet:我看到了一個與企業使用非常一致的模式:大部分用戶 最初采用 Hadoop 的目的是創建一個新型分析系統——在大多數情況下是由某個行業線(例如市場營銷)、或者由某個業務組推動的。在第一批項目取得成功之后,數據架構團隊會意 識到 Hadoop 在整個數據架構中的價值,進而將推動 Hadoop 下一階段的使用——通常是創造一個“數據湖”或者是相似的概念。對于 Hortonworks,我認為我們的角色是讓 Hadoop 市場能夠運行起來:
- 聯合該生態系統中的其他組織確保開源的 Hadoop 能夠持續地在開源領域發展同時為所有人服務
- 提供一個真正的已經經過大規模集成和測試的企業級平臺,同時合并開源社區最近的創新。
- 確保它與用戶已有的工具和技術的集成性和互操作性。這就是為什么我們會努力工作以確保 HDP 可以與來自于 HP、Microsoft、SAP、SAS、Teradata 等公司的技術進行認證的原因——事實上,現在所有的這些合作伙伴都將 HDP 作為他們產品中的一個組件進行轉售。一般來說,大多數組織所依賴的供應商依賴于 Hortonworks 針對 Hadoop 研發的相關產品,這種方式能夠讓整個市場更快地運行和成熟。
InfoQ:盡管 Hadoop 提供了驚人的處理能力,遠遠超過了 SQL,但是 Hive 在 Hadoop 的使用上依然有舉足輕重的地位。同時有更多的公司正在為 Hadoop 數據提供實時 SQL 查詢解決方案,強調將 SQL 作為主要的 Hadoop 編程語言的聲音似乎增長得更多。你認為這是一個短期現象還是一個長期趨勢?
McJannet:鑒于當今世界豐富的 SQL 技能,對存儲在 Hadoop 中的數據進行訪問時最常用的方式之一是使用 SQL 這并不稀奇。在這一方面,Apache Hive 是到目前為止 Hadoop SQL 查詢領域的一個占主導地位的工具。當然,一些希望抓住這一市場機遇的專有供應商也在 Hadoop 之上推出了一些新產品,但是總的來說 Hive 是標準同時也很有可能始終都是,特別是考慮到為了繼續提升 Hive 的速度、規模和 SQL 語義 Microsoft、SAP、Hortonworks 以及其他組織在 Stinger Initiative 上所做的工作。
除了 SQL 之外,還有很多其他的方式可以訪問存儲在 Hadoop 中的數據,但是公平一點地說,使用 SQL/Hive 將會是最主要的途徑。例如,Hive 往往是所有基于 Hadoop 的 BI 工具所使用的接口。但是對于更加復雜的用例,我們確實會看到廣泛使用的技術,例如 Pig(腳本查詢),同時還有更加普遍的高端工具,它們所使用的接口對用戶而言并不可見,例如R和 SAS。
隨著時間的發展,最常用的接口很有可能是一個打包的應用程序(SAS、Microstrategy、Excel、業務對象、Platfora 等),最終用戶根本就不需要知道底層用了什么。
InfoQ:你認為 Hadoop 將會被用于構建主流企業應用程序么?大約什么時候我們才能看到這些應用程序?
McJannet:毫無疑問!歷史告訴我們 Web 公司是采用這些新型技術(例如現在正在發展中的 Hadoop)的先鋒。這些公司已經基于 Hadoop 構建他們的主流應用程序幾年了,現在我們看到主流的企業也在遵循同樣的路徑。
也是出于這方面的原因,我們才有了這樣一個焦點:與人們已經擁有的開發技能集成。例證:.NET 開發者?.NET SDK for Hadoop 是基于開源 HDP 的。Java 開發者?Java Spring(構建 Java 應用的主要框架)的 HDP 認證將會是這個遷移的一個強力推動者。
什么時候?做這種類型的預測一直都非常難,但是我認為新生技術的轉變通常會需要比預期更長的時間,同時意義也要比預期更加深遠。Hadoop 技術的使用到現在已經進行了好幾年,現在才真正地開始固定下來,因為事實證明它能夠帶來客戶群的增長。作為一個供應商,我們認為我們角色中的一個非常重要 的方面是:關注于技術和技能的集成從而以最及時最合理的方式推動它的發展。
<span id="shareA4" class="fl"> </span> </div>