百度吳恩達:深度學習的前沿正轉向高性能計算

jopen 9年前發布 | 27K 次閱讀 深度學習

近日,百度首席科學家吳恩達(Andrew Ng)博士和百度硅谷人工智能實驗室主任亞當.科茨(Adam Coates)博士,在知名美國社交新聞站點 Reddit 熱門板塊 AMA (Ask me anything)與網友進行了一次熱情的問答互動。網友們紛紛針對自己關心的問題與兩位人工智能領域的大師展開交流,吳博士也對網友關心的很多問題闡述了自己的觀點。本文由張天雷、黃立威整理。

深度學習的前沿正轉向高性能計算

在對話中,吳博士談到,計算能力的提升和可獲得的數據的增加是深度學習的兩個關鍵驅動因素。機器學習的很多進步都是受到計算能力和數據的驅動,吳博士認為深度學習的前沿正轉移到高性能計算(HPC),這也是目前他們在百度的工作重心之一。吳博士認為在企業環境下建立新的 HPC 技術以及訪問大量的數據更加容易,驅使他選擇與企業開展合作。同時,吳博士認為計算能力的提升并不是我們被動地等待而自然發生的。在兩位專家從事深度學習的生涯中,有很多的成功得益于主動地追求可用的計算能力。例如,在 2008 年,吳博士啟動了他所認為的第一個 CUDA / GPU 深度學習任務,并引領這個領域開始使用 GPU。2011 年,吳博士創立并領導了谷歌深度學習小組(當時稱為谷歌大腦),使用谷歌云擴展深度學習;這使得深度學習得以推向工業界。在 2013 年,科茨博士等人建立了第一個 HPC 式的深度學習系統,可擴展性提升了1-2 個數量級。目前在百度,吳博士的團隊正在正利用 HPC 技術,開發新一代的深度學習系統,HPC 為深度學習提供了一大助力。吳博士認為高性能計算和大數據的深度結合將為他們帶來下一個深度學習的巨大進步,目前他們已經在語音識別方面取得的突破(http://bit.ly/deepspeech)。

另外,吳博士還談到,50 年前,實際上是計算機科學理論推動著計算機科學實踐的前進。例如,理論工作搞清楚了排序的復雜度是O(n log n),早期,Don Knuth 關于計算機理論方面的一些著作,真正推動了計算機科學的進步。今天,一些領域中仍然是理論推動實踐,如計算機安全:假如我們發現一個加密的漏洞,并發表一篇關于它的理論文章,這可能會導致全世界都根據你的理論更改自己的代碼。但在機器學習領域,進步越來越受到一些實際的工作所驅動,而不是理論。

機器學習技術 VS 專業領域知識

在談到面對一個專業領域內的具體問題什么技術更加重要,是機器學習的應用能力,還是對具體問題的領域知識?吳博士認為,解決不同問題需要的技術是不同的。但廣泛地說,對于解決一個問題所需要的知識源于兩個方面:

  1. 你身邊的工程師所擁有的;
  2. 從數據自身所能夠學習到的。
  3. </ol>

    在某些領域(如計算機視覺,語音識別和自然語言處理),快速增加的數據意味著(2)是現在的主導力量,因此,領域知識和身邊工程師的能力正變得越來越不那么重要。 5 年前,涉足計算機視覺和語音識別研究真的非常困難,因為需要你必須掌握很多的領域知識。但由于深度學習的興起和數據的增加,學習門檻現在變得更容易、更低,因為解決問題的途徑已經變為了機器學習+數據,工程師知道什么已經變得不那么關鍵了。吳博士認為現在的獲勝方法越來越多的是使用差不多的領域知識,編寫了一個學習算法,然后給它一大堆的數據,讓算法從數據中得出答案。

    為什么選擇百度

    當談到為什么選擇加入百度的時候。吳博士認為百度是一家非常出色的公司,百度研究院在很大程度上是一個全新的環境。百度投入了大量的精力進行員工發展,所以這里的人都在努力工作,并迅速地學習深度學習,HPC 等技術,他覺得這些東西為推動機器學習研究提供了最好的條件和可能性。

    另外,吳博士也針對網友關心的幾個問題提出了自己的看法。

    1. 從事機器學習是否需要一個高的學位。吳博士認為對于機器學習研究是否需要一個學位:答案是絕對不需要!一個博士學位是了解機器學習的一種很棒的途徑。但是,許多頂尖的機器學習研究人員并沒有一個博士學位。比如通過 Coursera 自主學習就是一種很好的方法。如果已經擁有的許多軟件開發技巧,可以一直跟進 MOOCs,并使用免費的在線資源(如 deeplearning.stanford.edu/tutorial)。通過充分的自學足以在一個工業界的機器學習團隊中獲得一個好的位置。
    2. 概率方法在深度學習中的地位。吳博士談到,在深度學習的初期,Hinton 開發了一些概率深度學習算法,如受限玻爾茲曼機,其使用對比散度算法進行訓練。但是,這些模型實際上很復雜,而且計算歸一化常數(劃分函數)非常困難,導致實際上是采用復雜的 MCMC 和其他算法來進行訓練。在接下來的幾年中,研究人員意識到在大多數的情況下這種概率形式并沒有提供任何優勢,反而增加了復雜度。因此,幾乎所有的深度學習算法都遠離這種概率形式,改為使用計算確定的神經網絡。(3)非監督學習的未來。吳博士認為雖然目前大部分成功的深度學習都是使用監督學習,但并不代表非監督學習在深度學習中沒有作用,反而具有非常大的潛力,因為我們擁有的非標記數據比標記數據多得多,只是我們還沒有找到很合適的非監督學習算法,因此非監督學習存在巨大的研究空間!
    3. </ol>

      吳博士也談到,自己經常在思考從事研究的意義在哪里。在百度,吳博士團隊的目標是開發出過硬的人工智能技術,從而讓數億的互聯網用戶受益。隨著時間的推移,吳博士愈加覺得應該更加具有戰略眼光,雖然已經看到前面還有很多的路要走,不僅僅是寫一篇論文,而是要鋪好一條道路讓團隊的技術能夠為更多的人受益。在這些日子里,這是讓兩位專家對于自己的工作真正保持熱情的源泉!

      來自: InfoQ
       本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
       轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
       本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!