大數據應用?你先搞定數據獲取再說

xuanlingzi 8年前發布 | 25K 次閱讀 大數據 分布式/云計算/大數據

大數據不再像過去幾年一樣,受限于工具缺乏的問題。那時候搞大數據意味著團隊里必須有數據科學家,還會被R和Hadoop之類的開源工具搞得心煩意亂。現在許多公司在大數據分析中最頭疼的問題,其實是如何獲取數據。

 

【51CTO.com快譯】雖然大數據已經變得更像一句營銷術語,但是它仍有巨大的潛力沒有被挖掘出來。不過,得先把數據獲取這個大麻煩解決了。

企業在面對數據的時候,比知道怎么處理更多的情況,是在這些數據里漫無目的的游泳。遺憾的是,太多的公司將這種現象與大數據本身關聯起來。從技術角度來說,大數據是非常具體的一件事――結構化數據(企業的專有信息)與非結構化數據(社交媒體數據流和政府新聞源之類的公共數據源)的結合體。

如果你將非結構化數據覆蓋在結構化數據之上,通過分析軟件將其可視化,你就會得到過去從未有過的洞察力――預測產品銷售、更精準地目標用戶、新的市場機遇,等等。

大數據不再像過去幾年一樣,受限于工具缺乏的問題。那時候搞大數據意味著團隊里必須有數據科學家,還會被R和Hadoop之類的開源工具搞得心煩意亂。

如今,多少公司都爭著幫你可視化大數據:從Tableau、Qlik、TIBCO和MicroStrategy之類的專業公司,到微軟、IBM、SAP和甲骨文之類提供端到端服務的廠商,不一而足。

不過,據上周出席奧蘭多中級市場CIO論壇/中級市場首席營銷官(CMO)論壇的IT主管們聲稱,許多公司在大數據分析中最頭疼的問題,其實是如何獲取數據。

一位CIO說:“我們IT部門的最大問題,是我們如何才能將數據獲取進來,這件事非常麻煩。”

這種說法也得到了相關數據的證實。

數據集成公司Xplenty開展的一項調查聲稱,三分之一的商業智能專業人員把50%至90%的時間,花在了清理原始數據和將數據錄入到公司的數據平臺的準備工作上。這種現象的原因,可能與只有28%的公司認為自己能從數據中獲得戰略性價值有很大關系。

數據清理的問題還包括,眼下IT行業許多最搶手的專業人員,正在花大量時間處理這項讓人暈頭轉向的工作:在分析數據之前先篩選并組織整理數據集。

這顯然對于數據的可擴展性非常不利,也嚴重限制了大數據的潛力。隨著物聯網不斷發展,收集更多的數據對我們來說將越來越容易,這個問題只會變得更嚴峻。

有三種可能的方法有望解決這個問題:

1. 大數據分析軟件不斷完善 ――許多這些公司在過去五年時一直投入大量精力在大數據領域,減輕數據清理環節壓力的工具不太可能在短期內出現重大突破,但有望實現逐步改進。

2. 數據準備人員成為數據科學家的助手 ――正如律師助理幫助律師處理重要的基礎工作,數據準備人員也會幫助數據科學家處理基本上同樣的底層任務。我們已經在某種程度上看到了這一幕。不妨閱讀TechRepublic的這篇文章:《“數據標記”是人工智能時代的新新藍領工作嗎?》(http://www.techrepublic.com/article/is-data-labeling-the-new-blue-collar-job-of-the-ai-era/)

3. 利用人工智能清理數據 ――另一種可能性是,用來清理、篩選和分類數據的軟件和算法將被編寫出來。這一幕極有可能出現,但是我們還應預料到,這也不是“銀彈”。微軟、IBM和亞馬遜正在致力于用人工進行軟件無法處理的數據標記工作――而這正是全球自動化和算法領域的三巨頭。

原文標題:Big data's biggest problem: It's too hard to get the data in ,作者:Jason Hiner

來自: http://developer.51cto.com/art/201604/509102.htm

 本文由用戶 xuanlingzi 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!