深度學習將走向更加開放的未來

jopen 9年前發布 | 22K 次閱讀 深度學習

原文  http://www.dataguru.cn/article-7153-1.html


當前人工智能之所以能夠引起大家的興奮和廣泛關注,在很大程度上是源于深度學習的研究進展。這項機器學習技術為計算機視覺、語音識別和自然語言 處理帶來了巨大的、激動人心的進步,也相應的帶來了具體應用的產品。科技巨頭們——谷歌、非死book、亞馬遜和百度紛紛涉足這個領域:四處挖掘人 才、建立研究實驗室、高價收購創業公司、發布研究成果并將成果應用于產品,等等。

深度學習是機器學習領域中一系列試圖使用多重非線性變換對數據進行多層抽象的算法,相較于在一大堆數據中自我生成任務的機器學習來說,這是一個 巨大的進步。之前的機器學習可以稱之為「膚淺的學習系統」,會受系統能計算的函數的復雜度的限制,例如,當使用線性分類器來識別圖像時,將需要從圖像中提 取出足夠多的參數特征來提供給它,但手動設計一個特征提取器非常困難,而且很耗時。或者使用一個更加靈活的分類器,比如說支持向量機或者兩層神經網絡,直 接將圖片的像素提供給它們,但這也不會提高物體識別的準確性。但深度學習的出現使這種情況發生了改觀,互相關聯的多層級為深度學習提供了「深度」,通過這 樣一種自下而上的工作,算法學著去識別特征、概念和類別,這就是人類非常擅長但一直很難用代碼去實現的任務。

人工智能近幾年的發展一方面取決于深度學習算法的成熟,另一方面取決于數據量的海量增長。百度的人工智能專家吳恩達把人工智能比作火箭,而深度學習是火箭的發動機,大數據是火箭的燃料,這兩部分必須同時做好,才能順利發射到太空中。

移動互聯網和多種智能設備的普及使我們進入大數據時代,為人工智能的發動機——深度學習提供了足夠多的燃料,早期的神經網絡只擁有有限的數據處 理能力。超過這個臨界點時,為它們輸入更多信息并不會帶來更好的表現。而現在的神經網絡系統所依賴的開發者的指導和調整要少得多。同時,不管你能輸入多少 數據,系統都能夠對其進行充分利用。谷歌、非死book和百度等互聯網巨頭坐擁海量信息,大量的搜索歷史、社交信息和圖片等。因此,他們才會積極布局 深度學習,讓機器不再懼怕信息過載的問題,反而是更好的從這些海量信息中挖掘中更多價值。

從另一方面來說,神經網絡要發揮作用必須先接受訓練。比如說,一臺機器要教會自己識別人臉,必須先被展示一個「訓練集」,其中包含成千上萬的照 片。也就是說,數據量的增長反過來也會提升神經網絡的表現。也就是說,對于深度學習和人工智能,需要越來越多的數據。雖然谷歌、非死book和百度這 類科技巨頭坐擁海量數據,但依然需要更加開放的互聯網中的數據輸入。例如,非死book人工智能實驗室負責人Yann LeCun在接受IEEE采訪時表示,非死book的人臉識別算法DeepFace在數據庫中的測試結果是97.25%,但如果圖片庫里有數億張臉, 那精確性就遠不及97.25%。所以,這些科技巨頭需要將深度學習和人工智能的研究更加開放,因為只有將他們已有的成果從一個相對封閉的環境中換到整個互 聯網中時,才能使深度學習模型更加完善,使人工智能得到更加廣泛的應用。

在人工智能領域,有許多開放式案例,有的是科技巨頭開放計算平臺,有的是深度學習開源算法,但這都表明了科技巨頭在人工智能開放化道路上的必然 趨勢。IBM在幾年前就開始將人工智能系統沃森開放給金融、醫療、互聯網(和推ter合作)等行業使用,2014年投入10億美元進行沃森開放平臺 的建設,當年年底沃森智能分析平臺向公眾開放,功能包括語音轉文字、文字轉語音、視覺識別、概念解讀多維分析。支持數據密集型分布式應用并以Apache 2.0許可協議發布的開源軟件框架Apache Hadoop,是根據Google公司發表的MapReduce和Google檔案系統的論文自行實作而成。此外,還有分布式機器學習框架Spark。國 內互聯網巨頭百度也在近期表明,將發起建立一個名為「深盟」的分布式機器學習開源平臺,由旗下深度學習研究院牽頭,聯合來自卡耐基·梅隴大學、華盛頓大 學、紐約大學、香港科技大學的多位系統開發者,共同推出旨在大幅降低機器深度學習門檻的“蟲洞項目”。目前,已經參與合作的公司包括今日頭條、汽車之家及 微軟亞洲研究院。深盟已有組件已成功覆蓋三類最常用的機器學習算法,未來還則將致力于實現和測試更多常用的機器學習算法。作為中國國內第一個達到工業界應 用水平的開源機器學習平臺。

分布式機器學習開源平臺對于人工智能領域有著重要意義,它解決了數據持續增長和機器學習模型逐漸復雜化與計算能力受限的矛盾,大幅降低機構和個 人進入分布式機器學習應用的門檻。而隨著產業界和學術界越來越多的研究人員使用該平臺,這一方面會貢獻更多的數據,才促進深度學習算法的完善。另一方面, 人工智能的發展除了算法和數據之外,也離不開應用場景,現在,眾多開發人員可以使用該平臺進行自身領域的應用開發,比起科技巨頭將深度學習僅用于自身業務 有了更好的開放性,能夠更加有利于深度學習技術更加廣泛的商業化應用。

因此,不管是Apache Hadoop和Spark等開源平臺,還是IBM的沃森開放平臺和百度剛剛發布的「深盟」開放平臺,都會借助這種開放式、分布式的合作機制充分調動群體協作和智慧,以更好的促進機器學習實現更加廣泛的應用,更快的實現人工智能的產業化。

</div>

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!