大數據還是太多信息?
編者注:移動互聯網時代的數據正在瘋長,大數據是現在技術界最熱的流行語之一。一種普遍的觀點認為掌握實時數據分析與決策能力者必能占得先機,但也有人認為數據再多也無法幫助我們預測未來,我們把這兩種觀點編譯如下,也請大家談談自己的看法。
我們都知道現在地球上的信息太多,但是怎么多法,沒有人知道。
IBM 負責超級計算機研發的 Dave Turek 給了我們一個答案,根據 IBM 的估算,自人類有史以來至今我們所產生的信息量為 5 艾字節(50億 GB)。而據 Turek 的預測,到明年的時候,我們生成這樣規模的信息量只需要 10 分鐘!
這怎么可能?!數據為何濫生到了這種地步?這么說吧,每次你的手機發送其 GPS 位置,每次你在網上買東西,每次你點擊社交網絡上的“喜歡”,你就給數字信息的海洋奉獻了一個水滴。現在這片海洋大部分已經為此類數據所覆蓋。
短信、客戶記錄、ATM 交易、監控攝像……這條清單可以列得很長。我們有一個流行語總結這些東西:“大數據”,盡管這個詞難以表述我們所創造的這個怪物的規模。
這是技術超出我們使用能力的一個最新例子。在這個例子里,我們還沒能跟上自己捕捉信息的能力,所以這段時間管理大師總喜歡說未來屬于能善用自己所收集數據的公司,尤其是具備實時利用能力者。
對于企業來說,能夠解析自己客戶的每一個數字化的蛛絲馬跡者必將擁有領先優勢,這種能力不僅僅在于能夠了解過去幾個小時里誰在哪里買了什么東西,而且還能夠知悉他們是否對此發表了微博、有沒有在社交網絡上發過相關相片。
城市亦是如此。能夠收集成千上萬個傳感器的數據,然后描繪出都市的數字化地圖,并能夠將城市生活的異常行為(如交通流量)變成科學的一定能夠脫穎而出。
不奇怪的是,政治運動也已經開始這樣的嘗試,發瘋地挖掘數據已經成為政客聚焦“納米定位(nanotargeting)”選民策略的一部分,這樣才能夠精準地知道如何才能撈到選票。
尋求對零碎數據進行解釋的狂熱解釋了 Google 上周為什么要開始銷售一款名為 BigQuery 的產品,該軟件可以在數秒鐘之內掃描幾 TB 的信息。也正因為此,數據分析初創公司 Splunk 上市首日的股價即飆升了 90%。
數據科學家的崛起
但是,哪怕你擁有最好的數據解密工具也不能保證就能擁有大智慧。很少有公司擁有專門受訓的員工,缺乏評估堆積如山的數據(包括數百萬社交網絡頁面、智能手機上的非結構數據)的能力,更不用說對此做些什么。
去年麥肯錫發布了一份報告,把“大數據”形容為“創新的下一個前沿陣地”,但該機構同時也預測說到 2018 年,美國公司在這方面將會出現嚴重的人才短缺,具備必要的分析技能的人才缺口多達 19 萬之巨。同時還認為美國具備數據知識的經理的需求將會超過 150 萬(中國呢?)。
盡管如此,并非所有人都相信大數據的魔力。沃頓商學院的 Peter Fader 教授并不認為數據越多越好。同時他也不認為企業應該竭盡所能去了解自己的客戶。他認為現在對數據聚合的關注太多了,而實際上,只有圍繞著真正的分析進行的數據收集,量才有意義。
信息超載?
盡管如此,并非所有人都相信大數據的魔力。沃頓商學院的 Peter Fader 教授并不認為數據越多越好。同時他也不認為企業應該竭盡所能去了解自己的客戶。他認為現在對數據聚合的關注太多了,而實際上,只有圍繞著真正的分析進行的數據收集,量才有意義。
Fader 最近在接受麻省理工《技術評論》采訪時說:
即便對過去行為擁有無窮多的知識,我們也無法掌握足夠的信息去預測未來。實際上,我們的得到數據越多,我們所累積的盲目信心就越多……重要的是理解我們自身的局限在哪里,然后用有可能的最好的科學去突破這種局限。數據再多也實現不了這個目標。
您怎么看呢?