數據科學家調查:受挫數據多樣性,吐槽 Hadoop
經過無數權威媒體的反復轟炸,我們大致已經相信,數據科學家是21世紀最神秘最性感最多金的職業,他們是大數據時代數據炸彈的拆彈專家,企業數字化經營的發動機,他們的身價堪比NFL四分衛,而且,他們比昆侖山上的雪豹數量還少。
顯然,數據科學家個個都是十八般數據分析武藝樣 樣精通的絕世高手,但他們近來也有煩心事。不久前,開源數據庫SciDB開發商Paradigm4進行的一項針對111名北美數據科學家的調查顯 示,71%的數據科學家認為數據來源的多樣性(IT經理網記者此前曾與百度創始七劍客之一,酷我音樂CEO雷鳴討論機器學習和大數據分析的最大挑戰,他也 認為是數據維度),而不是數據總量構成其職業最大威脅和挑戰。
值得注意的是,只有48%的受訪數據科學家表示他們在工作中曾使用過Hadoop或者 Spark,高達76%的數據科學家抱怨Hadoop太慢,編程速度過慢,以及其他一些局限性。(參考閱讀:Hadoop真特么難用)
雖 然Hadoop口碑不佳,但是有接近半數的數據科學家表示很難將數據存入傳統關系數據庫表中。Nexedi的首席執行官Jean-Paul Smets在接受IT經理網采訪時也曾指出,大數據的真正難題其實并不是所謂的“大”,業界目前缺乏是通過使用高效的分布式運算法則來處理數據的軟 件,Hadoop過于依賴Java,而Java已經被Oracle牢牢控制。中國興起的去IOE運動,實際上為Hadoop之外的大數據軟件方案提供了良機。
企業大數據進入復雜分析階段
根據報告,有59%的數據科學家表示其所在企業已經開始采用更加復雜的分析技術,例如集群、機器學習、種量分析(Principal components analysis)、圖論分析等高級分析技術分析數據,而不是局限于傳統的BI報告。
還有15%的數據科學家表示計劃在明年啟用復雜分析技術,另有16%的數據科學家表示將在未來兩年內采用復雜分析技術。
Hadoop被過度吹捧
Paradigm4的報告指出,Hadoop被過度吹捧成無所不能的,革命性的大數據解決方案,實際上Hadoop并不適用于需要進行復雜分析的大數據應用場景。
Hadoop的核心技術方法數據并行(data parallel),被Paradigm4稱作“鬧心的并行”。報告指出,復雜分析人物往往需要經常訪問、處理和分享全體數據,并在數據處理中交叉溝通中間結果,而這恰恰是Hadoop MapReduce的軟肋。
22%的受調查數據科學家表示Hadoop和Spark壓根不適合他們的分析任務,此外還有35%的數據科學家在嘗試Hadoop或Spark后停止使用這兩項技術。
Paradigm4數據科學家調查報告中的一些亮點被濃縮在下面這張信息圖中,供有興趣的讀者深究:
來自IT經理網