CCF大數據專家委員會:2016年大數據發展趨勢預測解讀與行動建議

jopen 9年前發布 | 37K 次閱讀 大數據

作者:潘柱廷 程學旗 袁曉如 周濤 靳小龍

1 引言

2015中國大數據技術大會(BDTC)于2015年12月10日在北京召開,會上中國計算機學會(CCF)大數據專家委員會(task force on big data,TFBD,以下簡稱大專委)發布了中國大數據技術與產業發展報告(2015),并對2016年大數據發展趨勢進行了展望。

自2012年10月CCF大專委成立,在每年12月的大數據技術大會上都會發布對第二年大數據發展趨勢的預測。從預測2013年到預測2016年,現在已經是第4次年度預測。每次預測都是基于對大專委專家委員觀點的收集整理、投票、匯總、解讀,最終形成年度預測,此預測是大專委群體智慧的結晶。在2015年和2016年的兩次預測中,還邀請了中關村大數據產業聯盟的聯盟成員參加了投票和匯總,也部分反映了產業聯盟的趨勢判斷。

2015年底做出的2016年預測,參加投票的大專委專家和產業聯盟成員是116位。根據這116位專家投票結果,匯總形成了對2016年 大數據發展 十大趨勢的預測,下面對這十大發展趨勢進行詳細介紹。

CCF大數據專家委員會:2016年大數據發展趨勢預測解讀與行動建議
2 2016年大數據發展十大趨勢

2.1 趨勢一:可視化推動大數據平民化

“可視化”雖然已是連續第三次入選大數據發展十大趨勢,但今年能占據第一位,實在是意料之外的意料之中。

這幾年,大數據這一概念迅速深入大眾人心,大眾直接看到的大數據更多是以可視化的方式體現。可視化實際上已經極大拉近了大數據和普通民眾的距離,即使對IT技術不了解的普通民眾和非技術專業的常規決策者也能夠更好地理解大數據及其分析的效果和價值,從而可以從國計、民生兩方面都充分發揮大數據的價值。

可視化是通過把復雜的數據轉化為可以交互的圖形,幫助用戶更好地理解分析數據對象,發現、洞察其內在規律。數據是人類對于客觀事物的抽象。人類對于數據的理解和掌握是需要經過學習訓練才能達到的。理解更為復雜的數據,必須要越過更高的認知壁壘,才能對客觀數據對象建立相應的心理圖像,完成認知理解過程。好的可視化就能夠極大地降低這個認知壁壘,將復雜未知數據的交互探索變得可行。

可視化技術的進步和廣泛應用對大數據走向平民來說,意義是雙向的。一方面, 可視化作為人和數據之間的界面,結合其他數據分析處理技術,為廣大使用者提供了強大的理解、分析數據的能力。可視化使得大數據能夠被更多人理解、使用。可視化使得大數據的使用者從少數專家擴展到更廣泛的大眾。另一方面,可視化也為大眾提供了方便的工具,可以主動分析處理與個人工作、生活、環境有關的數據。大約在10年前,可視化研究界已經開始討論為大眾服務的可視化。在今天的大數據背景下,可視化將進一步推動大數據平民化。在這一過程中,急需更方便且適合大眾使用需要的可視化方法和工具。可視化也將進一步和個人使用的移動通信設備(手機) 結合。在這一過程中,將有更多面向大眾的大數據可視化公司涌現出來。

建議在大數據相關的研究、開發和應用中,保持相應的比例用于可視化和可視分析。尤其建議利用產業生態中的已有成果。

2.2 趨勢二:多學科融合與數據科學的興起

很多與數據相關的專門實驗室、專項研究院所相繼出現,《數據學》等專門著作也紛紛出版,大家認為數據科學的雛形已經出現。

如圖1所示,大數據并不是簡單的“大的數據”。在近年對大數據的闡述中,至少有兩種典型的對應提法:一種是點出“小數據”的重要性;另一種是去掉“大”字而強調“數據”本身,強調數據科學、數據技術、數據治理、數據產業等。

CCF大數據專家委員會:2016年大數據發展趨勢預測解讀與行動建議

圖1 大數據與小數據

大數據技術是多學科多技術領域的融合,數學和統計學、計算機類技術、管理類等都有涉及, 大數據應用 更是與多領域產生交叉。這種多學科之間的交叉融合,呼喚并催生了專門的基礎性學科——數據學科。基礎性學科的夯實,將讓學科的交叉融合更趨完美。

在大數據領域,許多相關學科從表面上看,研究的方向大不相同,但是從數據的視角看,其實是相通的。隨著社會的數字化程度逐步加深,越來越多的學科在數據層面趨于一致,可以采用相似的思想進行統一研究。從事大數據研究的人不僅僅是計算機領域的科學家,也包括數學等方面的科學家。

大專委希望業界對于大數據的邊界采取一個更寬泛、更包容的姿態,包容所謂的“小數據”,甚至將領域的邊界泛化到“數據科學”所對應的整個數據領域和數據產業。

建議共同支持“數據科學”的基礎研究,并努力將基礎研究的成果導入技術研究和應用的范疇中。

2.3 趨勢三:大數據安全與隱私令人憂慮

安全和隱私每次調研都會出現在十大趨勢中,這表示大家對于大數據所帶來問題的深刻憂慮,這樣的憂慮至少包括以下3個方面。

第一,大數據所受到的威脅也就是常說的安全問題。這里并不是指利用大數據進行安全分析的“安全大數據”應用,而是指當大數據技術、系統和應用聚集了大量價值的時候,必將成為被攻擊的目標。雖然,現在影響巨大的針對大數據的攻擊還沒有出現,但是可以預見這樣的攻擊必將發生。

第二,大數據的過度濫用所帶來的問題和副作用,比較典型的就是個人隱私泄露。在傳統采集分析模式下,很多可以保護的隱私在大數據分析能力下變成了裸奔。類似的問題還包括大 數據分析 能力帶來的商業秘密泄露和國家機密泄露。

第三,心智和意識上的安全問題。這包括兩個極端:一個極端是忽視安全問題的盲目樂觀;另一個極端是過度擔憂所帶來的對于大數據應用發展的掣肘。比如, 大數據分析對于隱私保護的副作用,促使大家必須對于隱私保護的接受程度有一個新的認識和調整。

對大數據的威脅、大數據的副作用、對大數據的極端心智都會阻礙和破壞大數據的發展。

如圖2所示,大數據技術分別作用在業務、威脅、保障措施3 個要素之上,帶來保護大數據、對抗大數據級威脅、大數據用于安全3方面的安全發展空間。

CCF大數據專家委員會:2016年大數據發展趨勢預測解讀與行動建議

圖2 大數據技術作用于業務、威脅、保障措施之上

建議在大數據相關的研究和開發中, 必須保持一個基礎的比例用于相對應的安全研究,而讓安全方面產生實質性進步的驅動力可能是對于大數據的攻擊和濫用的“負面”研究。

2.4 趨勢四:新熱點融入大數據多樣化處理模式

大數據的處理模式更加多樣化,Hadoop不再成為構建大數據平臺的必然選擇。在應用模式上,大數據處理模式持續豐富,批量處理、流式計算、交互式計算等技術面向不同的需求場景,將持續豐富和發展;在實現技術上,內存計算將繼續成為提高大數據處理性能的主要手段,相對傳統的硬盤處理方式,在性能上有了顯著提升。特別是開源項目Spark,目前已經被大規模應用于實際業務環境中,并發展成為大數據領域最大的開源社區。Spark擁有流計算、交互查詢、機器學習、圖計算等多種計算框架,支持Java、Scala、Python、R等語言接口,使得數據使用效率大大提高,吸引了眾多開發者和應用廠商的關注。值得說明的是,Spark系統可以基于Hadoop平臺構建,也可以不依賴Hadoop平臺獨立運行。

很多新的技術熱點持續地融入大數據的多樣化模式中,目前不會有一個一統天下的唯一模式。從2015年中國大數據技術大會眾多技術論壇的安排也可以看到這樣的多樣化態勢。技術各有千秋,形成一個更加多樣、平衡的發展路徑,也滿足大數據的多樣化需求。大專委的專家們認為, 這樣的態勢還會持續下去。

建議將自己機構的大數據研究和開發,有意識地鏈接和融入大數據技術生態中,或者利用技術生態的成果,或者回饋技術生態。

2.5 趨勢五:大數據提升社會治理和民生領域應用

基于大數據的社會治理成為業界關注熱點,涉及智慧城市、應急、稅收、反恐、農業等多個民生領域。

大數據從來都是應用驅動,技術發力。在最易獲得大數據應用成果的互聯網環境之后,大數據走進國計民生成為必然。而在2016年,與民生有關的應用將成為熱點。國計與民生并不互斥,涉及民生的國計將是快速發展熱點中的熱點。比如, 反恐、醫療健康等都與老百姓密切相關, 同時也是國家大計。

由于更易獲得關注并對接真實需求, 建議優先投入社會治理和民生方面的大數據工作。

2.6 趨勢六:《促進大數據發展行動綱要》驅動產業生態

國務院在2015年8月31日印發了《促進大數據發展行動綱要》。綱要明確指出了大數據的重要意義,大數據成為推動經濟轉型發展的新動力、重塑國家競爭優勢的新機遇、提升政府治理能力的新途徑。綱要還清晰地提出了大數據發展的主要任務:加快政府數據開放共享,推動資源整合,提升治理能力;推動產業創新發展,培育新興業態,助力經濟轉型;強化安全保障,提高管理水平,促進健康發展。綱要還提出了組織、法規、市場、標準、財政、人才、國際交流等幾方面的政策機制要求。

綱要將對大數據的發展起到重大的推動作用,成為一個產業快速發展的催化劑和政策標桿。而各個地方政府一定會出臺類似配套的政策。在中央和地方的政策推動下,政府的大數據專項扶植政策和一些相關政策(如大眾創業、萬眾創新的雙創政策)集中出臺。

政府牽引產業生態,帶動數據共享交換。政府帶動的數據共享將成為數據流轉的源動力,讓數據開放共享、交換交易成為產業生態的新態勢,政策讓數據流轉動起來。國有和民間資本的集中注入,大數據相關的基礎設施建設的采購和投入, 使政策和市場雙重發力,讓資金流轉動起來。政府牽引的產業生態發展成為大數據發展歷程在2016年的突出特點。

建議應及時關注和跟蹤大數據相關的政策。有實力的機構應投入一定的北向1資源,主動影響和引導各級政府的政策和落實細則。

2.7 趨勢七:深度分析推動大數據智能應用

在學術技術方面,深度分析會繼續成為一個代表,推動整個大數據智能的應用。這里談到的智能,尤其強調是涉及人的相關能力延伸,比如決策預測、精準推薦等。這些涉及人的思維、影響、理解的延展,都將成為大數據深度分析的關鍵應用方向。

相比于傳統機器學習算法,深度學習提出了一種讓計算機自動學習產生特征的方法,并將特征學習融入建立模型的過程中,從而減少了人為設計特征引發的不完備。深度學習借助深層次神經網絡模型, 能夠更加智能地提取數據不同層次的特征,對數據進行更加準確、有效的表達。而且訓練樣本數量越大,深度學習算法相對傳統機器學習算法就越有優勢。

目前,深度學習已經在容易積累訓練樣本數據的領域,如圖像分類、語音識別、問答系統等應用中獲得了重大突破,并取得了成功的商業應用。預測隨著越來越多的行業和領域逐步完善數據的采集和存儲,深度學習的應用會更加廣泛。當然,在分析領域,也并不會是深度學習一統天下的局面。由于大數據應用的復雜性,多種方法的融合將是一個持續的常態。

建議保持對于智能技術發展的持續關注。在各自的分析領域(如在策劃階段、技術層面、實踐環節等)嘗試一下深度學習還是值得的。

2.8 趨勢八:數據權屬與數據主權備受關注

數據權屬與數據主權被高度關注,在個人和一般機構看是數據權屬問題,從國家層面看是數據主權問題。

大數據凸顯了數據的巨大價值。而數據的權屬問題并不是傳統的財產權、知識產權等可以涵蓋的權屬問題。數據成為國家之間爭奪的資源,數據主權成為網絡空間主權的重要形態。

數據成為重要的戰略資源。人口紅利、地大物博、經濟實力、文化優勢等都紛紛體現為數據資源儲備和數據服務影響力。

而數據資源化、價值化是數據權屬問題和數據主權問題的根源。

過度關注數據權屬,并仿照財產權或知識產權模式對數據增加過多的限制,不利于大數據的發展。在商業層面和科研層面,現階段應當看淡一些數據權屬問題。而在國家層面,應當積極推行數據主權認識,并且鼓勵數據進口,適當限制數據出口。

2.9 趨勢九:互聯網、金融、健康保持熱度,智慧城市、企業數據化、工業大數據是新增長點

我國大數據應用領域最早獲得成果的就是互聯網應用(包括電商等),而持續受到高度關注的應用領域還包括金融和健康,互聯網、金融、健康可稱為大數據應用領域的老三樣。而智慧城市、企業數據化、工業大數據則成為新的增長點,這新三樣就是城市、企業、工業的數據化,或者說是城市生活、企業貿易和管理、工業生產過程的數據化和大數據應用。新三樣是一種更廣泛的應用領域覆蓋。表1和表2分別為2013-2016年最令人矚目的應用領域投票結果和2015-2016年將取得應用和技術突破的數據類型投票結果。

CCF大數據專家委員會:2016年大數據發展趨勢預測解讀與行動建議

表1 2013-2016 年最令人矚目的應用領域投票結果(按照票數多少從上到下排序)

CCF大數據專家委員會:2016年大數據發展趨勢預測解讀與行動建議

表2 將取得應用和技術突破的數據類型投票結果(按照票數多少從上到下排序)

從表1和表2可以看出,“最令人矚目的應用領域”和“將取得應用和技術突破的數據類型”這兩項調研投票的結果印證了老三樣和新三樣的判斷。

建議順應潮流,這樣更易獲得資源支持。

2.10 趨勢十:開源、測評、大賽催生良性人才與技術生態

大數據是應用驅動,技術發力,技術與應用一樣至關重要。決定技術的是人才及其技術生產方式。

開源系統將成為大數據領域的主流技術和系統選擇。以Hadoop為代表的開源技術拉開了大數據技術的序幕,大數據應用的發展又促進了開源技術的進一步發展。開源技術的發展降低了數據處理的成本,引領了大數據生態系統的蓬勃發展,同時也給傳統數據庫廠商帶來了挑戰。新的替代性技術,都是新技術生態對于舊技術生態的侵蝕、拓展和進化。

對數據處理的能力、性能等進行測試、評估、標桿比對的第三方形態出現,并逐步成為熱點。相對公正的技術評價有利于優秀技術占領市場,驅動優秀技術的研發生態。

各類創業創新大賽紛紛舉辦,大賽為人才的培養和選拔提供了新模式。各類創業創新大賽完善人才生態。

大數據技術生態是一個復雜環境。在2016年,“開源”會一如既往占據主流,而測評和大賽將形成突破性發展。

建議不要閉門搞大數據技術和系統, 要開門融入世界性的技術生態中。

2016年大數據產業技術發展的十大趨勢預測可以簡單解讀為4個關鍵詞:一是“民生”,在眾多的大數據相關應用中,相對來說,與民生相關的大數據可能會得到更快的發展,比如:健康醫療、社會治安、環境保護等;二是“多樣性和融合性”,包括技術模式融合、產業融合等各方面的融合;三是“政策拉動”;四是“生態”,產業生態、技術生態等生態的構建是發展的大環境。

2013-2016年對大數據發展的十大趨勢預測結果見表3。

CCF大數據專家委員會:2016年大數據發展趨勢預測解讀與行動建議

表3 2013-2016 年對大數據發展的十大趨勢預測

3 大數據發展的單項調研結果

3.1 與大數據最匹配的概念

大數據本身具有很強的概念性,不可否認大數據有它的泡沫(甚至炒作的成分),但是不能因為啤酒上面有泡沫放棄底下香濃的啤酒。大專委針對時下流行的重大概念進行調研,在眾多流行的概念中,專家們認為和大數據最匹配的概念是“互聯網+、云計算和 智慧城市 ”,而其他選項(物聯網、移動互聯網、大眾創業萬眾創新、工業互聯網(工業4.0)、智能生活設備、一帶一路)則具有數量級的落差。

建議讓自己的大數據工作,同時再掛上1~2個業界熱點概念。這是有益而無害的,只要不僅僅停留在概念炒作。

3.2 我國大數據發展最主要的推動者

表4為2015-2016年我國大數據發展最主要推動者的調研結果,可以看出,目前最主要的推動者是大型互聯網公司、政府機構和創業公司。

表4 2015-2016 年我國大數據發展最主要推動者的調研結果

CCF大數據專家委員會:2016年大數據發展趨勢預測解讀與行動建議
從表4可以看出大型互聯網公司的慣性優勢,2016年以綱要為代表的政策性支持、雙創政策對于創業激情的拉動,將是大數據發展的主要推動力,而科研和公共服務的影響則相對弱化了。

建議讓自己的機構變成推動者或者與這3類推動者建立合作。

3.3 數據資源流轉并不樂觀

在大專委即將發布的第三本《中國大數據技術與產業發展年度報告》中, 重點闡述了大數據開放共享的問題。今年的趨勢調研也專門設立了這樣一項調研:2016 年,100多位專家和他的機構對數據的態度是什么,對數據流轉的態度是什么。從調研結果中看到,大家都想自己收集數據,希望能夠利用收集的數據進行數據服務,希望能夠買到數據集,而準備賣數據集的機構非常少。整個數據流轉上是需求大于供給的狀態,數據確實奇貨可居。而考慮數據國際交換和賣數據的投票者更是屈指可數。整個數據流轉的態勢不容樂觀。希望通過政府開放共享拉動數據交流和交換。

在現有的生態環境下,想要免費或者低價獲得高品質的數據是有困難的,要降低這種期望值。在數據需求大于供給的大環境下,數據采集和儲藏是一個很合算的投入方向,如果再結合輕度的數據冶煉,可以讓自己的機構進入搶手的數據提供者行列。

3.4 對大數據發展階段的判斷體現出對于成長性的極為樂觀

表5為對大數據發展階段的判斷結果。大專委的專家對當前中國大數據所處的階段進行選擇(單選)。從2015年和2016年的調研結果對比可以看出,專家們具有明顯的樂觀態度,2016年預測上升的人數增加,而預測下降的人數屈指可數。而且選擇“極為初級”和“即將快速擴張”兩個階段的專家超過70%,也就是認為大數據的峰頂還遠沒有看到,是極為樂觀的發展預期。在政策、市場、技術的多重推動下,大數據將有非常美好的前景。

表5 對大數據發展階段的判斷

CCF大數據專家委員會:2016年大數據發展趨勢預測解讀與行動建議
建議投入、投入、投入!投入資源到大數據領域,贏的概率很大。

3.5 群體智慧和“黑天鵝”

上述是對大專委專家們觀點的統計性結果和解讀分析,難以涵蓋專家們的獨特觀點和“黑天鵝判斷”。不過,這樣的群體性預測,仍具有很高的參考價值。2016年大數據領域是否會出現重大“黑天鵝事件”的投票結果顯示,42%的專家認為會出現,而58%的專家認為不會。

大數據領域的“黑天鵝”絕對是機遇大于威脅。積極地為“黑天鵝”做好準備,也就是讓自己的機構有能力根據突發的“黑天鵝”而調動(或者撬動)10%以上的資源。

來源:大數據期刊

來自: http://www.199it.com/archives/439630.html

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!