五分鐘了解你不得不知道的人工智能熱門詞匯

編者按:大數據和人工智能的浪潮正在席卷全球,眾多熱門詞匯蜂擁而至:人工智能(Artificial Intelligence)、大數據(Big Data)、云計算(Cloud Computing)、機器學習(Machine Learning)、數據挖掘(Data Mining)、深度學習(Deep Learning)、強化學習(Reinforcement Learning)和數據庫(Databases)。不少人對這些高頻詞匯的含義及其背后的關系總是似懂非懂、一知半解。

為了幫助大家更好地理解人工智能,我們邀請到微軟亞洲研究院資深研究員鄭宇博士用最簡單的語言來解釋這些詞匯的含義,理清它們之間的關系,希望對剛入門的同學們有所幫助。

人工智能、機器學習、深度學習和強化學習

首先來看一下人工智能、機器學習和深度學習之間的關系。如圖一所示,我們可以大致認為深度學習是機器學習中的一種學習方法,而機器學習則可以被認為是人工智能的一個分支。

人工智能: 人工智能涵蓋的領域很廣,除了機器學習外,還包括專家系統、進化計算、模糊邏輯、粗糙集、多代理、規劃問題等。最近幾年,人工智能的發展主要得益于機器學習領域的推動,尤其是深度學習取得的突破,其他領域的進展相對較小。人工智能分為弱人工智能和強人工智能,前者讓機器具備觀察和感知的能力,可以做到一定程度的理解和推理。目前的科研都集中在弱人工智能這部分,并很有希望在近期取得重大突破。而強人工智能期待讓機器獲得自適應能力,解決一些之前沒有遇到過的問題。電影里的人工智能多半都是在描繪強人工智能,而這部分在目前的現實世界里難以真正實現。

機器學習: 從學習方法上來分,機器可以分為監督學習(如分類問題)、無監督學習(如聚類問題)、半監督學習、集成學習、深度學習和強化學習。深度學習本來并不是一種獨立的學習方法,其本身也會用到有監督和無監督的學習方法來訓練深度神經網絡。但由于近幾年該領域發展迅猛,一些特有的學習手段相繼被提出(如殘差網絡),因此越來越多的人將其單獨看作一種學習的方法。按照學習目的來分,機器學習涵蓋了回歸、分類、聚類、異常監測、量綱學習和因果分析等。

深度學習 :最初的深度學習是利用深度神經網絡來解決特征表達的一種學習過程。深度神經網絡本身并不是一個全新的概念,可大致理解為隱含層很多的一個神經網絡結構。為了提高深層神經網絡的訓練效果,人們對神經元的連接方法和激活函數等方面做出相應的調整。其實有不少想法早年間也曾有過,但由于當時訓練數據量不足、計算單元落后,因此最終的效果不盡如人意。

強化學習: 強化學習為一個代理(Agent)在一個環境里設計一系列動作(Actions)以獲得最優的未來長期回報(Reward)。走迷宮常被用來作為解釋強化學習的例子。因為學習方法復雜,早年間強化學習只能解決一些非常簡單(狀態空間小、動作選擇少)的問題。直到深度學習的出現,使得我們可以用深度神經網絡去逼近一個近似的價值和策略函數,強化學習才取得很大的進展(如在AlphaGo里的價值判斷網絡),人們稱其為深度強化學習(Deep Reinforcement Learning)。與其說是強化學習的進展,不如說是在強化學習的框架里,深度學習貢獻了巨大的力量。

數據挖掘、人工智能、大數據和云計算

如圖二所示, 數據挖掘是從數據中發掘知識的過程,在這個過程中人工智能和數據庫技術可以作為挖掘工具,數據可以被看作是土壤,云平臺可以看作是承載數據和挖掘算法的基礎設施

數據挖掘: 數據挖掘是從數據中發掘知識的過程,在挖掘數據的過程中需要用到一些挖掘工具和方法(如圖二第二個層面所示)。這些工具可以是基于數據庫的挖掘方法,比如頻發模式發掘(Frequent Pattern Mining)和關聯規則。大家經常聽說的啤酒和尿布的例子就是基于數據庫技術的頻繁模式發掘。數據挖掘也可以用到機器學習的方法,比如各種分類模型(如Decision trees和SVM)、概率圖模型(Probabilistic Graphical Models)以及深度學習的方法。數據挖掘同樣也可以用到人工智能里非機器學習的方法,比如遺傳算法和粗糙集等。當數量非常大時,數據挖掘需要借助云平臺來承載數據,并利用云平臺中的分布式計算單元來提高數據挖掘效率。當挖掘完畢后,數據挖掘還需要對知識進行可視化和展現。

云計算: 云計算平臺一般是由第三方IT公司建立的涵蓋基礎設施、計算資源和平臺操作系統的集成體。云平臺解決了傳統公司各自搭建機器集群所產生的建設周期長、升級換代慢、維護成本高的痛點,讓其他公司可以從搭建計算平臺的繁重任務中解脫出來而專注于自己的業務。云平臺用戶可以高效、靈活的調整自己的資源配置(比如用多少臺虛擬機、多少個計算節點等),第三方公司根據用戶使用的資源來收取相應的費用。打一個通俗的比喻,就好比不用每家每戶弄一個發電機,而是集中建一個發電廠,每家只需要插上插頭就可以用電,根據用電的多少來計費。用戶不用關心發電廠建在哪里、如何發電,也不用操心如何維護發電廠本身的運轉和安全。

云計算平臺本身為大數據的存儲和分析提供了很好的基礎設施(如storage和Hadoop、Spark和Storm等分布式計算環境),但默認的云平臺上并沒有自帶強大的機器學習和人工智能能力,也缺乏高效的索引機制(如時空索引算法)。因此,云平臺并不等于大數據平臺。近期不少公司在積極地開發基于云平臺的機器學習工具(如AzureML)和人工智能平臺。圖三是我們基于Azure搭建的城市大數據平臺,其中時空索引、針對時空數據的機器學習算法和多源數據融合算法都是以前的云平臺所不具備的。

?

大數據: 大數據是一種從數據的采集、管理、分析挖掘到服務提供的端到端的、解決行業問題的綜合實力,是從數據生命周期這個維度來看的知識獲取過程(數據庫、機器學習和人工智能技術可以成為其中的一個環節),也是一種基于數據的思維方式。通常講大數據都會提到4個V,Volume(量大)、Velocity(速度快)、Variety(多樣性)、Value(價值)。但實際上,除了Variety(多樣性)以外,其他幾個屬性很難界定,比如多大才叫大,一直很難給出一個嚴格的定義。而只要是數據就有其價值,關鍵是如何利用數據。因此,大數據不是指一個體量很大的單一數據,其關鍵在于多源數據融合(即把來自不同領域的數據的知識相互結合,形成1 1>2的合力),這是大數據的戰略制高點,不是單單在“數據”前加個“大”字那么簡單。

多源數據的融合給數據管理、數據挖掘、機器學習和人工智能帶來了很多新興課題。當數據挖掘被用來挖掘和融合多源數據中蘊含的知識時,數據挖掘就跟大數據有了完美的結合。如果數據挖掘還在挖掘單一數據,那就是傳統的數據挖掘或者是早年間研究的“海量數據挖掘”。作為數據挖掘的工具,分布式機器學習的重點是解決海量數據挖掘的問題,而不是解決多源數據融合的問題。要想融合多源數據,我們就需要在機器學習中設計新的多源數據融合算法([1]是一篇關于多源數據融合的機器學習算法的綜述),并為云平臺設計特別的管理和索引方法。

圖四以城市大數據為例,說明了大數據和數據挖掘以及人工智能之間的關系。城市大數據就是從城市數據的感知、管理、分析到服務提供的端到端的、解決行業(如交通、環境等)問題的綜合實力。在解決一個問題時,我們通常需要同時用到來自于多個領域的數據(如預測空氣質量需要考慮氣象、交通和地理信息等),如何融合多源數據中的知識就是一個難點。這需要在數據挖掘過程中設計相應的數據管理算法和機器學習算法。因此,可以大致理解在圖四的第二、三(管理和分析)層面是在做數據挖掘的事情,而在第三層里,又需要用到一些改良的機器學習和人工智能算法。更多細節將在《Urban Computing》[2]一書中介紹。

[1] Yu Zheng, Methodologiesfor Cross-Domain Data Fusion: An Overview,in IEEE Transactions on Big Data 

[2] Yu Zheng, Urban Computing, MIT Press (預計2018年初出版)

作者介紹

鄭宇博士,微軟亞洲研究院城市計算領域負責人,上海交通大學講座教授、博導,香港科技大學客座教授;提出了“城市計算”的理念,以主作者身份在大數據和人工智能領域頂尖國際會議和刊物上發表相關論文50余篇,論文被引用14,000余次,H-Index:56;擔任人工智能頂尖國際期刊(SCI一區)ACM Transactions on Intelligent Systems and Technology(ACM TIST)的Editor-in-Chief(TIST近五年影響因子10.47,在所有ACM期刊中排名第一)、ACM數據挖掘中國分會秘書長,以及大數據領域知名國際會議ICDE2014 和CIKM2017的工業界主席;2013年,他因在城市計算領域的貢獻被《MIT科技評論》評為全球杰出青年創新者(TR35),2016年被評為美國計算機學會杰出科學家 (ACM Distinguished Scientist)。

 

來自:http://blog.sina.com.cn/s/blog_4caedc7a0102wz4a.html

 

 本文由用戶 ldw8806 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!