深度學習大牛Bengio教授在Reddit吐槽

jopen 10年前發布 | 39K 次閱讀 程序員

     Deep Learning 界的三架馬車,目前 Geoffrey Hinton 已被 Google 收編,Yann LeCun 已被 非死book 收編,還留在學術界的 Yoshua Bengio 最近心情好,在 reddit 上定期回答問題。

  我抽取了一些比較有料的觀點在下面,希望對大家了解這方面有幫助(再不上船可就晚了)。

  最近掀起的深度學習浪潮,只能表明機器學習界浪費了很多年沒去探索它,尤其 1996-2006 這十年。(吐槽深度學習大熱)

  學習好的表示(representations)是深度學習的核心目的,而非像 SVM 一樣就是在特征的固定集合做一個線性預測。(吐槽 SVM 用 kernel 轉移重點)

  為什么決策樹注定泛化能力差?我的文章中曾說明,其關鍵點是決策樹(和許多其他機器學習算法)劃分輸入空間,然后給每個區域分配不同的參數,因此沒有推廣到新區域或跨區域的辦法。不可能學習到一個需要跨越區域比訓練樣例數目還多的函數。相反神經網絡可以做到非局部的泛化,是因為每個參數在許多區域被重新使用,在常規的神經網絡通常是一半的輸入空間。(吐槽決策樹泛化能力差)

  無監督的處理過程(和預處理)仍然是處理半監督和轉移學習(領域適應及非平穩數據)問題的關鍵成分, 尤其新出現類別的標記樣本很少(或分布改變)的時候。我們就是這么贏得 ICML2011 的比賽

  無監督學習(unsupervised learning)的未來更吸引人的原因

  1. 利用未標記數據的龐大數量的優勢
  2. 了解所有觀察變量間的統計依賴關系,因此可以回答給定任何變量子集下關于任何子集的新問題(訓練集中未見的)
  3. 是非常強大的正則化,可以幫助學習者理清變化的潛在因素,使得更容易從極少數的例子解決新任務。
  4. 可用于在受監督情況下輸出變量(待預測的)是一個非常高維的復合物(如圖像或語句)的場合,即所謂的結構化輸出。
  5. </ol>

      超參數與在訓練中學習到的參數不同,因為后者通常是通過試錯手動設置的,或是對所有參數值組合做愚蠢的大范圍探索。(吐槽 grid search 傻大粗)

      問:目前深度學習取得成功的問題都是人類保持最先進水平(previous state-of-the-art)的問題,如圖像和語音識別、自然語言處理(vision/audio/language),有沒有勝過人類的案例?

      答:在欺詐識別以及 Netflix 的推薦系統中有成功的案例,特別是當輸入變量巨大到無法可視化或人類可以消化的時候。盡管我沒具體比較機器和人腦的性能,但純粹的速度優勢,也不會考慮讓人類做這些工作。

      在一天結束時,只有數據。專業的知識也是從過去的經驗來的:要么通過與人的交流傳達(最近的人,或過去的幾代人,即所謂文化的進化),要么通過遺傳進化(這也依賴于將知識刻入基因的經驗)。潛在說明我們可能需要多種優化方法,而不僅僅基于梯度下降(大多數的學習算法)。(吐槽大數據,不明覺厲)

      我相信大腦的大部分工作是盡量把我們的經驗變得相關,以建立一個關于世界的更好模型。

      關于深度學習的革命性再怎么強調都不為過。除了在現有的圖像語音識別中不斷刷新 state-of-art 之外,在 google,使用深度學習的 AI 給機器隨機“看”了 1000 萬個 油Tube 視頻。你猜它看到了什么?貓的臉!在百度,使用深度學習的廣告 CTR 預估模型用K級別特征戰勝了原來B級別特征的線性模型。

    來自: meroa.com
     本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
     轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
     本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!