為什么我們說海量數據處理技術會火
大數據處理技術正在改變目前計算機的運行模式。我們已經從中獲得了大量收益,因為正是大數據處理技術給我們帶來了搜索引擎 Google。然而故事才剛剛開始,基于以下幾個原因,我們說大數據處理技術正在改變著這個世界:
- 它能處理幾乎各種類型的海量數據,無論是微博、文章、電子郵件、文檔、音頻、視頻,還是其它形態的數據。
- 它工作的速度非常快速:實際上幾乎實時。
- 它具有普及性:因為它所用的都是最普通低成本的硬件
大數據為以下這些公司提供了解決方案:eBay、非死book、LinkedIn、Netflix、推ter 以及 Zynga。
事實上大數據處理并非一項新的技術,它僅僅是小部分技術的一個術語簡稱。其中的某些技術已經與我們生活了數度春秋,然而時間推移到 2012 年,其中更小的部分技術就讓大數據一下子火了起來。
- 目前大數據市場已經達到 700 億美元規模并以每年 15% 的速度增長
數據存儲巨頭 EMC 的 CEO Pat Gelsinger 最近透露,大數據處理目前的市場規模已達 700 億美元并且正以每年 15-20% 的速度增長。幾乎所有主要的大科技公司都對大數據感興趣,對該領域的產品及服務進行了大量投入。其中包括了 IBM、Oracel、EMC、HP、Dell、SGI、日立、Yahoo 等,而且這個列表還在繼續。
眼見著這些財大氣粗的大公司動作頻繁,VC 們也沒閑著,因為該領域將是他們未來的搖錢樹。他們正尋找大數據領域可靠的創業企業進行投資,創新孵化機構 Accel 就于去年 11 月建立了 1 億美元的“大數據”基金,同樣,IA Ventures 也于之前的一個月建立同樣的基金。
- 大數據領域正吸引大量的人才進入
所有關于大數據的東西都在于“大”:潛在市場大、該領域的企業大,就算是那些剛剛進入該領域進行創業的小團隊,他們拿到的投資額也大。因此,如 果看到大量硅谷工程師牛人進入該領域的情形,我們不會感到意外。來自 Google、非死book 以及 Yahoo 的工程師,正排隊進入像 Cloudera、Hortonworks 以及 MapR 這樣的大數據領域創業公司。
- 廉價技術使大數據變成可能
大數據處理之所以發生是因為存在這樣的需求:
- 云技術給了人們廉價獲取巨量計算和存儲的能力。你不必去買一個大型機或者一個數據處理中心,只需為你使用的部分付費。
- 社交媒體意味著每個人都在創造有趣的數據也消費這些數據。
- 擁有 GPS 定位系統的智能手機正提供人們日常生活中新的見解。
- 寬帶連接的普及使得人們時刻保持在線狀態
- 任務分解,大數據技術由四種技術構成
我們前面提到大數據技術是很多種技術的某種集合,它們包括:
- 分析技術
- 存儲數據庫
- NoSQL 數據庫
- 分布式計算技術
- 分析技術意味著對海量數據進行分析以實時得出答案
人們會思考運用云技術我們能做什么?IBM 副總裁兼云計算 CTO Lauren States 解釋說,運用大數據與分析技術,我們希望能獲得一種洞察力。她提供了一個澳大利亞網球公開賽的一個案例。當時組委會在 IBM 的云平臺上建立了一個叫 Slam Tracker 的分析引擎,Slam Tracker 收集了最近 5 年比賽的近 3900 萬份統計數據。通過這些數據分析出了運動員們在獲勝時的一些表現模式。
- 內存數據庫技術(In-Memory Databases)讓信息快速流通
大數據分析經常會用到存儲數據庫來快速處理大量記錄的數據流通。比方說,它可以對某個全國性的連鎖店某天的銷售記錄進行分析,得出某些特征進而根據某種規則及時為消費者提供獎勵回饋。
- NoSQL 數據庫是一種建立在云平臺的新型數據處理模式
NoSQL 在很多情況下又叫做云數據庫。由于其處理數據的模式完全是分布于各種低成本服務器和存儲磁盤,因此它可以幫助網頁和各種交互性應用快速處理過程中的海量數 據。它為 Zynga、AOL、Cisco 以及其它一些企業提供網頁應用支持。正常的數據庫需要將數據進行歸類組織,類似于姓名和帳號這些數據需要進行結構化和標簽化。但是 NoSQL 數據庫則完全不關心這些,它能處理各種類型的文檔。
在處理海量數據同時請求時,它也不會有任何問題。比方說,如果有 1000 萬人同時登錄某個 Zynga 游戲,它會將這些數據分布于全世界的服務器并通過它們來進行數據處理,結果與 1 萬人同時在線沒什么兩樣。
- NoSQL 來自于大小不一的玩家
現今有多種不同類型的 NoSQL 模式。商業化的模式如 Couchbase、10gen 的 mongoDB 以及 Oracle 的 NoSQL;開源免費的模式如 CouchDB 和 Cassandra;還有亞馬遜最新推出的 NoSQL 云服務。
- 分布式計算結合了 NoSQL 與實時分析技術
如果想要同時處理實時分析與 NoSQL 數據功能,那么你就需要分布式計算技術。分布式技術結合了一系列技術,可以對海量數據進行實時分析。更重要的是,它所使用的硬件非常便宜,因而讓這種技術的普及變成可能。
SGI 的 Sunny Sundstrom 解釋說,通過對那些看起來沒什么關聯和組織的數據進行分析,我們可以獲得很多有價值的結果。比如說可以分發現一些新的模式或者新的行為。運用分布式計算技 術,銀行可以從消費者的一些消費行為和模式中識別網上交易的欺詐行為。
- 分布式計算技術讓不可能變成可能
分布式計算技術正引領著將不可能變為可能。Skybox Imaging 就是一個很好的例子。這家公司通過對衛星圖片的分析得出一些實時結果,比如說某個城市有多少可用停車空間,或者某個港口目前有多少船只。它們將這些實時結 果賣給需要的客戶。沒有這個技術,要想快速便宜的分析這么大量衛星圖片數據將是不可能的。
- 分布式計算技術是 Google 的核心,也是 Yahoo 的基礎
目前分布式計算技術是基于 Google 創建的技術,但是卻最新由 Yahoo 所建立。Google 總共發表了兩篇論文,2004年發表的叫做 MapReduce 的論文介紹了如何在多計算機之間進行數據處理;另一篇于 2003 年發表,主要是關于如何在多服務器上存儲數據。
來自于 Yahoo 的工程師 Doug Cutting 在讀了這兩篇論文后建立了分布式計算平臺,以他兒子的玩具大象命名。如今 Cutting 已經離開 Yahoo,加入了最大的分布式系統創業公司 Cloudera。其它一些創業企業包括 MapR 以及 Yahoo 自己的 Hortonworks。但是所有最大的 IT 供應商都提供這個技術,它們或者以產品的形式,或者基于其云計算平臺。
- 該技術經常是免費的,但是咨詢費則相當昂貴
大多數大數據技術都是開放項目并且免費,通過提供服務來盈利。很多有需求的 IT 企業不了解如何建立這方面的應用,也沒有這個必要。主流的 IT 公司都在建立這方面的產品和服務,以幫助企業充分利用分布式技術的強大優勢。其中包括了很多正在崛起的初創企業。我們可以相信,未來類似 Google 這樣的企業將更多來自于這些創業企業。
via BI