伯克利科學家探索深度學習在科學中的前沿應用

碼頭工人 8年前發布 | 26K 次閱讀 深度學習

最近,加州大學伯克利分校NERSC(美國國家能源研究科學計算中心)實驗室的研究人員測試了為高性能計算研發的先進機器學習工具。

NERSE和Berkeley Lab介紹

美國國家能源研究科學計算中心(The National Energy Research Scientific Computing Center ,NERSC),是美國能源部科學局的主要科學計算設備。作為專為基礎科學研究提供計算資源和專門技術的世界上最大設備之一,NERSC是通過計算加速科學發現的領導者。它位于勞倫斯伯克利國家實驗室,供國家實驗室以及大學6,000多名的科學家使用,NERSC從事許多基礎科學研究,包括氣候模擬、材料科學、聚變能、早期宇宙模擬、高能物理實驗的數據分析、計算機生物學、蛋白質結構的研究等。伯克利實驗室(Berkeley Lab)是美國能源部的國家實驗室,位于加州伯克利。實驗室主要從事非傳統科研,由加州大學代能源部科學局進行管理。

伯克利科學家探索深度學習在科學中的前沿應用
伯克利實驗室的生物系統和技術部門(Berkeley Lab’s Biological Systems and Engineering Division)使用深度學習庫(a deep learning library )分析記錄說話時大腦情況的數據。

深度學習不新鮮,但是,把這些工具運用到美國國家能源研究科學計算中心(NERSC)超級計算機每天都要處理的超級龐大科學數據組時,就是另一番情況了。

現在,伯克利實驗室正在試著改變這一情況,他們嘗試用為高性能計算研發的深度學習軟件解決在NERSC以及其他超級計算設備上運行計算所遇到的大量科學難題。

伯克利實驗室數據和分析服務小組的負責人Prabhat說,「我們在評估深度學習是否可以用于氣候研究,中微子實驗以及神經科學等方面的數據組。」「日常研究中,超級計算機以及實驗觀察儀器會生成海量數據。關鍵問題是如何自動挖掘數據隱藏模式,這正是深度學習擅長的。」

深度學習,是機器學習一個分支,也是神經網絡的最新迭代,用以解決機器學習存在的問題。借助機器學習算法,計算機可以分析給定數據集指定樣本,找出其中模式,還能預測可能發現的其他模式。

深度學習被設計用來學習輸入數據的分層、非線性集合。能避免典型機器學習對設計自定義特征的要求,也是目前實現分類、回歸以及后果預測等任務最先進的技術。雖然三十年前已經有了核心概念,但是,直到大數據出現以及硬件資源性能提升、近期算法創新,諸如谷歌、百度這類的公司才能在圖像、語音識別問題上取得巨大進展。

伯克利科學家探索深度學習在科學中的前沿應用
深度學習工具正協助氣候科學家更好的識別極端天氣事件與氣候變化之間的關聯。

讓人驚訝的是,到目前為止,深度學習還沒有被運用到科學數據分析中,很大原因在于這些算法不是被設計用來在高性能超級計算系統上運行的,比如NERSC中的那些超級計算系統。

一家提供深度學習云服務的創業公司Nervana的首席技術官以及聯合創始人Amir Khosrowshahi說,「挑戰之一是如何為相關領域解讀深度學習從語音,圖片和文本中所獲得的信息,比如大氣模擬。」公司正在測試beta版Neon,這是NERSC的一個開源深度學習庫。「那些數據可以自然映射圖片或視頻分析問題的領域,最易采用最新深度學習算法解決問題。」

三個研究案例

以氣候數據分析為例。現代氣候模擬產生了大量數據,需要成熟的技術識別Tb甚至PB級別數據庫的模式,比如,極端天氣與氣候關系。NERSC數據和分析小組已經與伯克利實驗室展開合作,測試Neon的深度學習庫能否有助于簡化這一過程。到目前為止,結果很樂觀。

伯克利科學家探索深度學習在科學中的前沿應用
NERSE已經為Daya Bay 實驗架設了深度學習數據管道,無監督深度學習首次被用于粒子物理學領域。

Prabhat 說,「實踐中,我們發現較之其他方法,使用深度學習得到的結果是最為先進。」「比如,在氣候模擬數據中,尋找熱帶氣旋的準確率達到95%。」之前提到的這些調查結果會在12月14日到18日舊金山召開的 2015 American Geophysical Union會議上公布。

大亞灣中微子實驗也在測試深度學習算法是否可以提升數據分析能力。實驗從2011年就開始搜集數據,并一直持續到今天。

NERSC的數據和分析服務組的數據結構師Wahid Bhimji說,和所有粒子物理實驗一樣,大亞灣實驗也需要海量數據,雖然使用了十分成熟的分析方法,但是,實驗還是需要大量手調和物理知識。去年,這個小組監管了在NERSC為 大亞灣架設深度學習管道的工作。他們試著用深度學習自動減少數據特征。他們發現,無需人工干預系統就可以挑選出有趣的物理特征。這也是深度學習首次被用于粒子物理研究。

Kris Bouchard是伯克利實驗室生物系統和技術部門的計算機系統神經科學家。他已經于NERSC,伯克利以及舊金山分校展開合作,將一個叫做Theano的深度學習庫用于分析記錄說話時大腦情況的數據。

他介紹說,我們想要解決的這樣一個基本問題,在記錄下正被轉化為行動的大腦信號同時,解碼或翻譯出這些信號。被用于解決這一問題的傳統工具屬于標準機器學習辦法,不適合用來解釋腦數據深層結構。

在發現大腦信號模式方面,深度學習是個更加強大且富有彈性的工具。他補充說,我們團隊使用深度學習解碼語音音節,正確率達39%,比傳統算法好200%,也是這個領域最先進技術。合作結果將在蒙特利爾舉行的 2015 Neural Information Processing Systems Conference 上公布。

數據中心組的副主任,英特爾高性能計算平臺總經理 Charles Wuischpard說,深度學習和機器學習的工作量與日俱增,這會改變科學家和企業家獲取洞見、嘗試解決巨大挑戰的方式。這些工作量需要高性能計算和大數據操作技術來加速研究,攻克模型訓練中的瓶頸。我們很高興和伯克利實驗室以及NERSC的研究人員一起工作,在使用 Intel? Xeon?和 Intel Xeon Phi TM 處理器的系統上訓練全新水平的深度神經網絡,真正推動研究迭代。期望未來會有更多的發現。

Prabhat說,在為科學研究研發深度學習方面,NERSC處于領先地位。在傳統物體識別任務、氣候科學、高能物理以及神經科學方面,MANTISSA項目已經了有了最先進成果。通過與Nervana System合作,我們已經研發出適用于更廣泛科研領域的軟件工具。而且,我們也在積極與英特爾以及伯克利展開合作,在Cori平臺上部署大規模平行、高性能深度學習庫架構。深度學醫已經變革了商業應用;我們很高興能將這一強大技術用于模擬、實驗性以及觀察性數據組。

來自 nersc ,機器之心編譯出品。編譯:微胖。

 本文由用戶 碼頭工人 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!