微軟的這項新技術證明,深度學習還能更“深入”

jopen 8年前發布 | 21K 次閱讀 微軟 深度學習

微軟的這項新技術證明,深度學習還能更“深入”

計算機視覺已經是日常生活的一部分。借助這種技術,非死book可以識別你上傳到社交網絡的照片上的人物;Google  Photo能夠自動在收藏行列中找出特定的圖片,以及識別出各種各樣的東西……這樣的應用已經在互聯網中流行已久。

所有這些“識別”都源自于一種被稱為深度學習的人工智能技術。但就在這種技術被大肆炒作的幾年時間中,來自微軟研究院的一項新實驗證明這只是人工智能的開始——深度學習還可以更深度。

深層神經網絡的突破:152個層級

計算機視覺革命是一場持久的斗爭。2012年,這項技術迎來了關鍵的轉折點,那時加拿大多倫多大學人工智能研究者贏得了一場叫作ImageNet的比賽。ImageNet讓一群機器PK圖像內容識別,對圖片中的小貓、小狗和白云,看看哪臺計算機的識別準確率更高。當時,由研究員Alex Krizhevsky和教授Geoff Hinton組成的多倫多大學團隊在比賽中使用了深層神經網絡技術,這種技術的算法可以讓機器基于目前最大的圖像數據庫進行分類識別,而不是依靠人為制定的規則。

多倫多大學團隊使用非監督的逐層貪心訓練算法取得的成果,為訓練深度神經網絡帶來了希望。從那時候開始,包括非死book、Google、推ter和微軟在內的互聯網巨頭紛紛開始使用相似的科技來建造自己的計算機視覺系統。微軟研究院主管Peter Lee表示:“還不能說我們的系統能夠像人類眼睛一樣進行觀察,但我敢說,在某些特定的、狹義的任務上,計算機視覺可以媲美人類。”

粗略地說,神經網絡兼用硬件和軟件來模擬近似人類的大腦神經元網絡。這個想法誕生于上世紀80年代,但直到2012年,Krizhevsky和Hinton基于圖像處理單元、GPU運行的神經網絡技術才算真正地推動了這項技術的發展。這些專門的處理器和其他高度圖形化軟件最初都是為了游戲中的圖像渲染而設計,但事實證明,它們也適合于神經網絡。Google、非死book、推ter、微軟等公司如今都使用GPU來驅動人工智能來處理圖像識別,以及包括互聯網搜索、安全防御等其他任務。現在,Krizhevsky和Hinton都已經加入了Google。

如今,最新一屆ImageNet的贏家正在探求計算機視覺的下一個突破點——以及人工智能更加廣泛的應用。上個月,微軟研究院團隊摘得了ImageNet的桂冠,他們使用了一個“深層殘差系統”來指導神經網絡結構的設計。目前普遍使用的神經網絡層級能夠達到20到30層,在此次挑戰賽中該團隊應用的神經網絡系統實現了152層。ImageNet挑戰賽去年獲勝的系統錯誤率為6.6%,而今年微軟系統的錯誤率已經低至3.57%。

而這也表明,在未來幾年里,利用大型的GPU集群和其他專屬的處理器,我們不僅能夠改善圖像識別,而且還能解決對話識別、自然語言理解等人工智能服務。換句話說,目前深度學習所能達到的發展程度愈加接近其本應具有的潛力了。Lee表示,微軟正致力于發掘更巨大的設計空間。

深度神經網絡以“層”的形式分布。每一層都具有不同系列的運算——也就是算法。某一層的輸出會成為下一層的輸入。籠統地說,如果一個神經網絡是設計用來進行圖像識別的,其中某一層神經將負責尋找圖片的一系列特性——邊、角、形狀或者紋理——而下一層神經則負責尋找另一個系列的特性。這些層級就構成了神經網絡的”深度“。負責監督ImageNet大賽的北卡羅來納大學研究員Alex Berg介紹:“一般而言,神經網絡越深度,機器學習就越容易。”

所以,微軟研究院團隊應用的152層神經網絡系統能夠識別出更多的對象屬性,大大提高了圖像識別的準確率。“它們可以學習到更多微妙的東西。”

事實上,過去這種很深的神經網絡并不可行。部分原因是,在通過每一層級的反傳訓練中,反傳監督信號幅度會迅速衰減甚至消退,這讓整個神經網絡系統的訓練極為困難。根據Lee的介紹,微軟通過使用深度殘差網絡解決了這個困難——這個深度殘差網絡可以在不需要時跳過某些層級,而需要用到時又可以重新拾回。“跳過某些不需要的層級,有助于保持反傳監督信號的幅度。”“殘差學習”最重要的突破在于重構了學習的過程,并重新定向了深層神經網絡中的信息流,很好地解決了此前深層神經網絡層級與準確度之間的矛盾。

Berg表示,這個新的設計不同于以往的神經網絡系統,相信其他大公司和研究者都會效仿。

“深層”的困難

另一個問題是,構建這樣一個宏大的神經網絡是非常困難的。落地于一套特定的算法——決定每一個層級應該如何運作、如何與下一個層級進行傳遞——可以說是一個史詩級的任務。不過,在這里微軟同樣有個訣竅——它設計了一個計算系統,可以幫助構建這些神經網絡。

微軟研究院團隊成員之一孫堅解釋稱,研究人員可以為大規模的神經網絡尋找出可行的排列,然后系統可以對一系列相似的可能性進行循環運算,直到計算出最有效的排列。“大多數情況下,在經過一定次數的嘗試后,研究人員會從中總結、反饋,然后為下一輪的嘗試給出新的決策。我們可以將這種方式成為‘人工輔助搜索’。”

深度學習創業公司Skymind首席研究員Adam Gibson表示,這樣的做法越來越流行,“這叫做‘超參數優化算法’。”“人們可以加速機器集群的運算,一次同時運行10個模型,然后找出效果最優的一個。”

“歸根結底是一個關于硬件的問題”

按照孫堅和Peter Lee的描述,這種方法并不是在這個問題上“蠻干”。“在有著大量的計算資源后,系統自然就可以計算出一個龐大的組織,然后在這個具有無限可能的空間內進行搜索。只是,目前世界上還具備這樣充足的計算資源,因此我們主要還是依靠像孫堅這樣聰明的研究員。”

但Lee強調說,多虧了新的技術以及計算機數據中心,才使得發展深度學習有了巨大的可能性。如今,微軟的重要任務之一是創造出開發這些可能性的時間和計算機系統。這就是微軟為何不僅努力改進GPU集群的運算能力,還開發其他諸如現場可編程門陣列(FPGA)等專用處理器的原因之一。而除此之外,微軟研究員還需要開發更多試驗性的硬件平臺。

如Gibson所言,深度學習愈加變成為一個“硬件問題”。確實,我們仍需要高級研究員來指導神經網絡的構建,但所謂尋找新的途徑更多地是開發適用于更多硬件平臺的新算法,而更多更好的硬件支撐可以說是一個捷徑。

via Wired

來自: http://www.leiphone.com/news/201601/TTW5rLH8CnUKpR3b.html

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!