Quora機器學習Sessions:對話谷歌研究員Kevin Murphy

jopen 8年前發布 | 36K 次閱讀 數據挖掘

Writing Sessions是知識共享網站Quora推出的一個與專家交流互動的新板塊,在這里你可以看到各個行業領域的專家、學者、名人等對引人注目的問題的獨特見解。最近推出的系列圍繞如今最熱門的技術之一——機器學習所展開,之前機器之心推出了Andrew Ng系列,Pedro Domingos系列,本次機器之心精選谷歌研究員、《Machine Learning: A Probabilistic Perspective》作者Kevin Murphy在Quora上的回答,讓我們一起看看這位機器學習研究員對機器學習等有何見解吧!機器之心后續還會陸續推出其他專家系列,敬請期待!

問題一:深度學習的極限在哪里?

如果你說的「深度學習」指的是「函數的嵌套組合」,那么它確實沒有太多極限可言,因為所有的計算都可以被包含在這個概念里。然而在我看來,主要的問題在于目前的深度學習方法仍需要過多的時間和數據——這和人類能夠通過小得多的數據樣本學習,并且學得更加快速的能力相矛盾(比如,《紐約時報》語料庫中的詞匯量比一個三歲小孩聽過的所有詞匯多出100多倍)。

關鍵的問題是:學習的最佳表示形式,即歸納偏置(inductive bias)(譯者注:當學習器去預測其未遇到過的輸入的結果時,會做一些假設(Mitchell, 1980)。而學習算法中的歸納偏置則是這些假設的集合。——維基百科)是什么?當然,這因不同的學習任務而異。人類似乎綜合采用了多種知識表示。具體的例子見Liz Spelke關于兒童「核心知識」的工作(以及Josh Tenenbaum及其同事的工作)。當然,這種高層次的知識由神經放電的模式予以表征。但是從統計的角度(或者計算的角度)來講,通過操控更加結構化的表征(比如,對象和代理,以及它們的屬性和關系)比起在一個超高維的連續參數空間中進行小步長計算更利于高效學習,雖然目前看來,后者似乎正大放異彩。

問題二:除了Matlab和R語言這樣的主流語言,今后在學術和工業界還有哪些最有用的語言?

Python是目前最受歡迎的語言,雖然在科學計算領域,Julia似乎也越發受到青睞。個人來講,我喜歡具備靜態類型檢查和類型推理功能的語言,比如Standard ML 和 Scala,但它們并未進入機器學習社區的主流(雖然微軟研究院顯然大量使用了F#語言)。在谷歌,我們主要使用C++ 和Python,也有一些同事用Jave和R語言。同時,DeepMind團隊和其他一些人工智能實驗室使用的是Lua語言(因為這是使用Torch最簡單的方法)。

問題三:你寫作《機器學習:概率觀》(Machine Learning: A Probabilistic Perspective)的動機是什么?

大約在2006年我開始了這本書的寫作,當時我是英屬哥倫比亞大學的教授,給本科生和研究生講授機器學習。我發現當時已經出版的作品(如Chris Bishop的書,以及Hastie,Tibshirani 與 Friedman合著的書)都在某方面尚有缺陷(比如Bishop的書中甚至沒有提到L1范數規則化,而Hastie的書沒有包括圖論模型)。于是我決定自己寫一本,但我沒想到這本書花了整整六年才得以出版。

問題四:你怎樣看待openAI?

一方面,OpenAI的員工都是深度學習領域一批最優秀的初級研究人員;另一方面,我認為它成立的初衷——即Elon Musk等人擔心人工智能會掌控世界——有些不靠譜。我同意吳恩達的說法,即「擔心人工智能超越人類就像是擔心火星上人口過剩一樣」。我的主要擔憂在于,擔憂這些遙不可及的災難讓人們從眼前的緊迫問題上分散注意力,比如氣候變化,失業問題(部分由人工智能造成),(經濟和種族的)不平等,等等。

問題五:機器學習中,尚未解決的問題里最重要的是哪個?

非監督式學習。具體來講,我們應該采用怎樣的目標函數?將已知數據或者甚至是后來得到數據的似然最大化似乎不是正確的方法。比如,假設我們要預測一段視頻接下來N幀的每一個像素,我們會關心圖像的精確亮度值嗎?不,我們關心的是對下一步的預測(汽車會向左還是向右轉向?如果我扔下這個杯子,它會摔碎嗎?)。不知何故,人和動物似乎是在這一更抽象的層面學習預測的,這與對象和關系相關,不需要接收任何標簽數據。多任務強化學習對此有所幫助,但是單單從梯度獎勵(scalar reward)進行學習似乎太局限。學習預測某人的行為結果似乎有所幫助(這同樣可以用于基于目標的規劃)。

問題六:為什么人工智能贏得圍棋是意義重大的里程碑?

圍棋比國際象棋困難得多,因為它要求學會察覺棋盤上布局的微妙模式,而不是僅僅計算不同棋局狀態下的權值。在這方面,圍棋更接近于實際問題,它要求一種「模糊的」模式識別。(關于DeepMind的更多信息,請見 AlphaGo: using machine learning to master the ancient game of Go )。這仍然和「人類級別的人工智能」相距甚遠(比如,AlphaGo只能下圍棋,卻不能完成其他任務),但這仍然是令人驚嘆的里程碑。

問題七:除了神經網絡,什么是機器學習領域目前最有前途的方法?

具有優良特性的古典廣義線性模型(例如,線性和邏輯回歸),只要輸入特征足夠多(如詞匯和像素),并有合適的特征引擎,它們就能夠出色的解決監督式問題。你也可以把它們和字嵌入(word embeddings)結合起來。另外,隨機森林算法(Random forests)也是很好的機器學習方法。

問題八:學習機器學習最好的教材有哪些?

顯然我寫的 機器學習教材 是不錯的選擇。然而不得不承認,這一版本對初學者來說有一定難度。事實上我正在編寫本書的第二版,它講述的節奏更加緩慢,也就更加適合初學者(我也在這一版中加進了深度學習、增強學習等內容)。但完成它還需要一段時間(大概兩年?)。

同時,還有別的一些好書值得推薦。比如,可以參考這個書單: josephmisiti/awesome-machine-learning 。我認為尤其出色的一本是James, Witten,Hastie和Tibshirani編寫的 《統計學習入門》(Introduction to Statistical Learning) 。它包含了一些頻率統計方面的概念,比如p-值(這一部分你可以放心跳過),但不足的是,沒有涵蓋深度學習或圖論模型等主題,但無論如何這是一本很好的入門教材。

問題九:人們應該怎樣開始自己的機器學習領域的職業生涯?

這取決于你怎樣定義「機器學習領域的職業生涯」。

如果你指的是一份運用現成工具(如R程序庫、scikit-learn或Dato)的工作,你只需要在本科期間上幾門機器學習相關的本科課程,或是在線的開放課程(如 https://www.coursera.org/learn/m…https://www.coursera.org/special… )。

另外,你應該多多積累實際經驗,比如參加kaggle競賽,以及(或者)在github上分享你的代碼(我推薦使用Python)。

如果你想要一份開發全新機器學習算法的工作,那么你需要獲得計算機科學以及(或者)統計學的博士學位(當然,也有人在博士后期間從物理等領域中途轉向機器學習)。

本文選自 Quora ,機器之心編譯出品,編譯:張詩玥、柒柒。

</div>

來自: http://www.almosthuman.cn/2016/02/13/n4a1u/

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!