Quora機器學習Sessions:對話算法大師Pedro Domingos

jopen 8年前發布 | 42K 次閱讀 算法 深度學習 人工智能

Writing Sessions是知識共享網站Quora推出的一個與專家交流互動的新板塊,在這里你可以看到各個行業領域的專家、學者、名人等對引人注目的問題的獨特見解。最近推出的系列圍繞如今最熱門的技術之一——機器學習所展開,之前機器之心推出了Andrew Ng系列,而本次機器之心精選華盛頓大學教授、熱門暢銷書《主算法》(The Master Algorithm)作者Pedro Domingos在Quora上的回答,讓我們一起聽聽這位算法大師對人工智能、機器學習等有何見解吧!機器之心后續還會陸續推出其他專家系列,敬請期待!

問題一:在未來的10到20年內,工作崗位和工作需求會發生怎樣的變化?

一些職位消失的同時會有很多新的職業涌現。現有崗位人數會增加,由于自動化,很多產品和服務價格更低,同時人們的可支配收入也會增多,因此人們的需求量也會更大。但是最主要的變化還在于很多(絕大多數)職業會發生本質上的變化。它們還會存在,但是會變得和現在不一樣。因為計算機會完成更多日常工作,將專業人士解放出來,去做更多非日常的事情。對于工人來說最關鍵的問題將不再是「要怎樣我才能打敗機器?」,而是「我怎樣能利用計算機把我的工作完成得更好?」自動化就好比是一匹馬,你不需要跑得比它快,而是要去駕馭它。國際象棋便是個很好的例子。國際象棋程序可以很容易的擊敗所有人,但是世界上最好的棋手卻不是電腦。在國際象棋界,有一些團隊里面既有人也有計算機,他們經常被稱為centaurs。人和計算機可以互補優缺點,所以當兩者合作時才能發揮最大功效。我覺得這種情況會出現在絕大多數的領域。

問題二:深度學習會取代所有其他類型的機器學習嗎?

不會的。深度學習是表征學習的一種形式,它會自動的從數據里面提取模型的特征,而不用再人工的去建造。而怎樣完成這一過程是機器學習的核心所在。然而表征學習還有其它形式,比如在圖像模型中的誘導隱藏變量和符號學習中的謂詞創造,它們能做目前深度學習算法所不能做的事情。

當然,我可以從深度學習開始,慢慢延伸來包含這些功能,但你也完全可以從另一個方向入手。不管怎樣,最終的結果也不會僅僅是深度學習(但是從現在對深度學習的熱情來看,很多人也可能會錯誤地認為它就是一切!)。

另外,在機器學習中除了表征學習外還有很多重要的方法,比如強化學習的核心——延遲獎勵學習,它在深度學習中就沒有被涉及到。值得重申的是,我們在這兒看到的是深度學習和其他種類的結合(比如DeepMind的玩Atari游戲中的Q學習)。還有反向傳播算法,它驅動了大部分深度學習系統,解決了分數分配問題,但是并不能解決比如學習結構、學習可組成的知識,從樣本中總結等其他關鍵問題。所以我們還需要除深度學習外更多的其他方法,才能有一個真正的通用的學習器。

問題三:理解大腦對深度學習很重要嗎?反過來呢?

這很重要,但是有一個限度。舉個例子,對卷積神經網絡結構(convnets) 的了解是基于Huble和Wiesel對于貓的視覺皮層組織的經典發現。如果沒有后者,前者根本不會存在。但是被Hubel和Wiesel所啟發而建立的第一個視覺學習模型則是 Fukushima的神經認知機,他試圖了解大腦皮層運作的方式但是并沒有成功。卷積神經網絡利用的是反向傳播算法,它并不關心大腦皮層是怎樣工作的 (在大腦皮層中是沒有誤差反向傳播路徑的)。誤差反向傳播看起來更像是小腦的學習方式。所以我們現在所擁有的看起來有點像科學怪人(有著大腦皮層結構,卻用著小腦學習方法),但是這很管用。這對深度學習的啟示是:從大腦中提取靈感,但是適可而止。

換言之,深度學習到現在為止并沒有對神經科學產生太大的影響。我認為這是因為神經科學還沒有達到精確理論模型可以通過實驗測試的階段。但它正朝著那個方向發展。最終,計算模型對于神經科學會像數學對于物理那樣重要。

問題四:誰或者哪個實驗室正在進行最前沿的機器學習研究?

不止一個。產業界有諸如Google、非死book、Microsoft等公司。在學術界,取決于學習類型,但是幾乎所有的頂尖計算機科學系都在進行最前沿的研究。從歷史上看,卡耐基梅隆大學名列前茅,但其他院校也在迎頭趕上。

問題五:你寫《主算法》這本書的目的是什么?

我有兩個主要目的。第一個目的是給予這個領域之外的人對機器學習的基本理解以及意識。機器學習太重要了,因此不能只有專家了解,每一個公民,專業人士,科學家,善根以及公共官員都需要知道它是什么以及它可以做什么,因為這關乎他們的生活和決定。(我已經看過太多由于對機器學習沒有基本理解而做出的完全無必要的壞決定。)另一個目的是將這個領域向正確的方向推動。我認為在機器學習領域,也遇到了和其他領域中一樣的問題,人們卡在某種模式典范里而失去了對全局的把握。即使算上目前所有的成功,機器學習依然處于嬰兒期;如果我們試圖達到人類學習的級別,那么我們需要更好的新思路以及重大的突破。矛盾的是,相對于已經致力于這個領域的某個方向的專業研究人員來說,新進入這個領域的人可能更有潛力提出這樣的思路。所以我寄予這本書的希望是它可以吸引更多新人,不管是學生還是其他領域的人,進入機器學習領域,他們的想法將讓這個領域變得更加豐富。

問題六:機器學習中最重要但尚未解決的問題是什么?

我認為是如何進行表征學習。這是人類非常神奇的地方 :可以從像素認識到物體并且從聲波認識到意義 , 而且沒有它,學習將總是被局限且脆弱不堪。我們知道無數種學習線性組合基本函數的方法,不管這些函數是高斯的,S的,單項的,規則的,樹的還是其他種類。但這些基本函數又是從哪兒來的呢?事實是,即使在50年的研究之后,我們依然無法解開這些問題。當然,反向傳播算法和深度學習是一個答案,但我認為最近它們取得的一系列偉大的結果僅僅是因為數據集規模的增大。到頭來,通過最近這些年深度學習所有的方法,它們還是無法從訓練集數據點中進行概括。因此,仍有許多工作要做,仍然缺失諸多關鍵見解。

問題七:在你看來,下一個計算機科學的重大新興領域是什么,為什么?

這是一種預測:隨著電腦對自然語言的理解越來越好,越來越多的編程將由非程序員來完成。這將會大大增加計算機科學家的數量,開發生存算法,計算機科學的面貌也將徹底改變。然而現在很不幸的是,只有一種思維(邏輯、精細化等)可以在計算機科學領域成功。但是未來,這些將變得不重要,因為人工智能將填補這些空白,而且任何想法,無論大小,都能轉化為一個可以運作的系統。如果你認為現在的進程很快,那么請想象一下當上述情況發生時會是什么樣子。

問題八:你如何看待OpenAI?

我祝愿他們成功,但是在讀了他們的宣言以及與其中一些重要人物交談之后,我還是不清楚他們到底打算做什么。我的感覺是他們還在試圖搞清楚,這沒什么問題,但是這也讓預測OpenAI最終的影響力變得很困難。很多都取決于他們雇傭了誰以及他們選擇了哪個方向。這就像另一個類似OpenAI的例子——Allen Institute for AI(AI2)。他們的目標很類似,但他們已經選擇了一些關鍵性的挑戰去解決(比如,讓電腦通過SAT)。這也可以是OpenAI的一個很好的模式,但是擁有不同的目的(比如,家用機器人)和技術(比如深度學習,在這方面AI2更針對于符號人工智能)【譯者注:Symbolic AI,或者經典AI,是通過可以聲明的方式,如事實和規則,來表述人類知識。符號人工智能需要將人類的隱含知識或過程翻譯成明顯的符號或規則給機器。】

OpenAI聲明的要用AI造福公眾的目標是好的,但我不確定最終這會如何影響科研。不管你是開發家用機器人還是機器人士兵,所需解決的基礎問題都一樣。人工智能本來就是多用途的, 技術本身并沒有好壞之分。對于人類,你從工廠里找個工人,給他把來福槍,他就成了士兵。對于人工智能,也不會有太大區別。

問題九:你如何看待產業界與學術界中正在進行的機器學習研究。

學術研究更加偏向理論,周期較長;產業研究更加偏向應用,周期較短。如果你希望幾個月就能有一些影響,產業比較適合你。如果你希望研究有深度的問題,并且試圖造成高度影響,去學術界。最近我經常聽到類似于「為什么當產業界擁有多得多的資源和多得多的人力來解決同一個問題的時候,還要在學術界做機器學習?」我認為這是混淆視聽。產業界的研究者總是有壓力,要為公司的生存做一些貢獻,這是可以理解的。但解決深度問題比任何時候都重要,這正是因為機器學習如今變得如此普及,而學術界是做這些事最好的地方。我們在過去的這幾年所看到的,更加偏向應用的人從學術界轉移向產業界。這是好事兒,因為這是這個領域的研究轉向現實世界的一個重要的方式,但它也有一個很不幸的副作用,那就是學術界現在有些過于偏向理論,而遠離了實驗科學。所以我們需要培養下一代的實驗研究人員來填補這個空缺。

問題十:主算法所追求的與物理中的大一統理論有何區別?

物理學中的大一統理論目標更窄:尋求一個統一的理論來解釋自然界四種力量(重力,電磁力,強核力,弱核力)與實驗觀測一致。而在機器學習中,我們的目標是發明一種通用算法——有能力在事物中發掘規律,不止于物理學中的大一統理論,還有其他生物學,心理學或是經濟學所涉及到的或小或大的理論。但是這兩者之前確有共通之處,那就是要想發明主算法,需要將機器學習中的主要模型整合到一起,與物理中的各種力相結合是異曲同工。

問題十一:AI對于人類來說是一個潛在的威脅嗎?

不是的,有一個非常簡單的原則:創造AI并不是AI本身的意圖。AI可以產生自己的次目標,但是其前提是為我們設置的目標服務,并且是在我們所限定的范圍內。這就是當今所有AI如何運作的現狀,只要這個現狀不被打破,AI就永遠是不會產生威脅的AI。如果你不曾因為擔心狗會襲擊你而徹夜難眠,那也不必擔心機器人。它的進化不過是為了更好的服務你罷了。

當然,人性使然,早晚有一天會有人利用AI來填補其私人的貪欲。為了應對這種狀況,我們需要William Gibson所謂的「圖靈原則」:像警察逮捕罪犯,好的AI去抓捕壞的AI。銀行搶匪利用高速跑路,但這并不意味著我們就不該有高速。對于AI來講,也一樣。

然而有另外一種AI對人性的威脅可能是我們更要擔心的:人工智能的傲慢,缺乏常識,或者過于表面的理解指令都可能造成破壞——這就像個『魔法師學徒問題』。實際上,這種情況一直存在,當對于判定一個人是否有資格獲得信用卡,一個病人是否被誤診,一個無辜的人被貼上恐怖分子的標簽,等等。想要讓電腦做出正確決策需要使其更加智能,而不是更傻。人們擔心計算機會因為變的過于聰明從而接管世界,但真正的問題是,它們已經占領了世界卻依舊很愚蠢。

問題十二:您認為現在社會上對于深度學習的討論和宣傳公正嗎?

一部分是。深度學習在視覺和語言識別以及其他問題上已經取得了真正意義上的進步。但是問題完全被解決還尚需時間,更何況AI廣泛地應用到語言,推理和常識。任重而道遠,我們已經走了一千步,但是還有一百萬步等著我們。

問題十三:您認為,我們需要對人類大腦了解到何種程度才能成功將其功能全部復制并人工化呢?

也未必需要太多。我們在完全不知道工作原理情況下依然可以復制其功能,就像是我們并不了解鳥兒是如何飛起來的但是我們依舊可以制造飛機。我們可以從心理學中獲得靈感從而不用去深究神經科學。盡管如此,神經科學也是靈感的絕佳來源,比如卷積神經網絡。

問題十四:我們是否可以說人類學也是有主算法的?并且無法被模仿?

可能,但不一定。哥德爾定理(比如所有對角化參數)都依賴于無限的存在(通過皮亞諾公理),但是人類大腦是有限的,因此很難說是否能有相似的理論。

問題十五:怎樣才是好的算法設計?

讓我以學習算法的案例來回答這個問題吧。設計一個學習算法的簡單而合理的方式就是采用現成的算法并對其進行調整。但是長期解決方法則是不同的:即針對問題設計一個新的算法,通過找出其正確的表征(它可能會與之前的完全不同)、評估,和優化。

問題十六:自我學習機器學習的最好來源是什么? 

我更愿意以網上課程作為開始。這里有很多選擇:我的課程,Andrew Ng、Yaser Abu-Mostafa的課程, Carlos Guestrin和Emily Fox在近期開辦的系列課程。接著再看開源圖書館,例如Weka,來自UCI數據庫或Kaggle的數據,開始嘗試。然后是學習教科書。Tom Mitchell所編寫的書籍雖然最廣為傳播且很方便,但它并不是最新的。Kevin Murphy的書籍則覆蓋甚廣且具有深度,也是數學和代碼的優秀結合。對于更加全面的建議,可以去參考《主算法》的進一步閱讀書單。

問題十七:深度學習對于外行來說是什么?

快速答案:深度學習是利用不止一層的隱藏神經層去學習一個神經網絡(即除去輸入與輸出層之外超過一層)。

更佳答案:深度學習是去發現最能代表問題的特征,而不僅僅是一個組合方法。例如,在目標識別中,淺度學習以手動制作圖片的特征開始,但深度學習則以原始像素開始。

問題十八:通用量子計算機的發展是如何影響機器學習的?

它會在機器學習中掀起革命,因為現在需要花費指數式級別的時間算法,到那時可能僅需要花費多項式級別的時間,將許多事情會被簡化。然而與計算機科學的其他部分不同,機器學習在時間與空間外還有著另一個關鍵的有限資源:數據。許多核心問題仍然存在。無論何種情況,通用量子計算的發展都看起來不太可能。但即使再不可能,諸如D波(理論上能通過最優解來解決多項式時間中的硬性優化問題),對于機器學習來說都是了不起的(如果它真的有效,并能夠縮小到多比特規模。)

問題十九:你對于強人工智能/通用人工智能領域的研究有何建議?

試著去解決端對端問題,比如視覺與操控,或讀取文本以及回答問題。我不建議通用AI針對諸如分類或解析這樣特殊的問題進行研究。

問題二十:如果人類為了持續生存而學習算法優化,那么一個先進的主算法應該優化什么?

它將優化我們給它的任何目標。換句話說,優化函數不屬于主算法的一部分,而是我們所謂的參數之一。

問題二十一:你是如何緊跟機器學習/人工智能領域發展的?你的主要信息源是什么?

我與同事們交談聊天,包括研究人員、學生和從業者。我瀏覽主要會議和期刊的摘要,當然,我會參加任何能參加的會議。

問題二十二:我們會看到關于主算法的慕課嗎?

在Coursera上,我有一個機器學習的慕課,其課程結構和內容都與《主算法》這本書十分相似(實際上這就是這本書的起源)。也許某個時間我會用這本書中的主算法和其他概念來更新課程,但是目前還沒有相關課程。

問題二十三:你對Jeff Hawkins(關于智力/Numenta)怎么看,為什么他關于HTMs的研究似乎被機器學習/深度學習研究者忽略了?

Jeff對于大腦如何工作具有良好直覺,而且很合理,但是目前他還不能將其轉換為算法來超越其藝術的狀態。總的來說,在其被轉換為算法之前,主流研究人員都不會關注其研究。許多研究人員并不認為模擬大腦是一個很好的機器學習方法。我認為有些人(比如研究深度學習的人)很同情 Jeff,但是他們也無暇顧及一個仍處于藝術狀態的研究。

問題二十四:為什么大部分人工智能研究放棄了基于邏輯的人工智能,轉而支持統計方法?

簡單來說就是統計方法在實踐中能更好地工作。但是我認為基于邏輯的人工智能也做了許多貢獻,最終我們需要將兩者結合。的確,這正是我大部分研究的重點。

問題二十五:我讀了你的書,非常喜歡,我認為你對全能強人工智能( full strong AI)的象征性和演化方法持懷疑態度,為什么?

我并不懷疑符號方法,事實上,我認為這是至關重要的。在書中第九章,當我將各個部分放在一起時,便形成了符號學習。我許多自己的工作都用諸如概率和類比等其他方法與符號學習相結合。

如果你將演化方法看作廣泛的學習結構以及包括諸如爬山算法和定向搜索等的東西,那么我也沒有懷疑演化方法。我認為這也是越來越多的人如何看待演化方法。具體問題是兩種方法融合是否有效仍然值得商榷。我認為在我們將其轉換為一個真正好的學習算法(比如個體發生學)之前,我們仍需要更多地了解自然演化。

問題二十六:擁有大數據的人工智能,未來會如何?

大數據會在未來人工智能中起很大作用,因為我們掌握越多數據,機器學習就越強大,而機器學習是人工智能的關鍵。但是大數據也只能達到目前我們所達到的程度了,因為智能代理通常需要非常少的數據。這一點人類非常擅長,我們仍然需要找出如何在人工智能系統中做到這一點。

問題二十七:你認為強化學習會是未來人工智能的主要組成部分嗎?

它會是主要部分,但并不是唯一部分。比如強化學習需要監督學習的支持。同時我們也應該將強化學習問題(從延遲獎勵中學習)與目前強化學習技術區分開來。我認為前者是不可避免的,但后者我們未來可以用更好的方法代替。

問題二十八:你在寫《主算法》時最大的挑戰是什么?

最大的挑戰是學習如何撰寫一本科普書,這與撰寫技術論文或教科書十分不同。你不能用數學或者偽代碼,而且要讓沒有很多相關知識背景的讀者能讀懂。與此同時還有有趣、吸引人,要有故事、示例、類比等。因此我必須找出如何做這樣一本關于機器學習的書。

問題二十九:你對Deepmind正在使用的通用學習算法怎么看?

我認為這是一個很有前途的方法,我們需要人們嘗試不同的方法直到找到最成功的一個。更具體地說,我認為深度學習和強化學習都是很好的方法,但是它們還不夠,如果DeepMind想要真正解決人工智能,那么他們所作的事情則正在超越它們(事實上,他們已經在做這件事,比如在圍棋中將深度學習與蒙特卡洛樹搜索相結合。)

問題三十:你認為數據科學和機器學習將如何改變經濟學家的角色?

經濟學將越來越少地使用高度簡單化數學模型,而將更多使用能從大量數據進行學習的豐富計算模型,并且使用諸如MCMC和非凸優化等來進行推理。

問題三十一:計算機科學特別是機器學習研究的內在哲學是什么?

計算機科學,更具體地說,機器學習屬于技術領域,因此它們由理論設計和實驗組成,三者缺一不可。Herb Simon的《人工的科學》(The Sciences of the Artificial)對此問題有更好地詮釋。

問題三十二:深度學習有助于解決或人工重建感覺運動系統嗎?

當然,這便是大量研究正在做的事,比如Pieter Abbeel和Sergey Levine的機器人。

問題三十三:在人工智能領域,你最大的弱點是什么?你是如何克服的?

我的小秘密是:我既不是一流的數學家,也不是一流的系統構建者。但是在人工智能研究(也許是所有研究)中還有更重要的事情:理解問題然后想出解決辦法。沒有人擅長所有事情,你必須愿意走出自己的舒適區,充分利用自己的長處,也要確保自己的基礎。

本文選自 Quora ,機器之心編譯出品,編譯:怪獸 、之乎、妞妞姐姐、chen xiaoqing、孟婷。

</div>

來自: http://www.almosthuman.cn/2016/02/11/mbk76/

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!