百度開源的Warp-CTC人工智能技術,到底是什么鬼?

jopen 8年前發布 | 18K 次閱讀 百度 開源

百度開源的Warp-CTC人工智能技術,到底是什么鬼?

百度硅谷 AI 實驗室( SVAIL )近日宣布,百度已開源關鍵人工智能 Warp-CTC 的關鍵代碼,并且已向 GitHub 上傳了 Warp-CTC 的 C 語言代碼庫,共享給了開發者,引起了美國業內的廣泛關注。

好的,那么問題來了。

一,百度開源的 Warp-CTC 是什么?

解釋這個事情極為復雜,我們需要一步步說起。

1 )什么是深度學習

如何讓人工智能模仿人類大腦的思考,一直是科學家在努力的事情,而深度神經網絡就是模仿人類思考的方式,人類的思考方式是有深度加工的。

20 世紀 50 年代,計算機科學家就設計出了神經網絡,并經歷了幾十年的變化,機器可以通過一層又一層的判斷,最后識別出對應的預測結果。在 2006 年 Hinton 對這個方法做出關鍵改進,對每一個層的數據結果進行數學優化,進而加快了學習速度,被稱之為 “ 深度學習 ” 。

隨后,“深度學習”獲得了巨大成功,它是 IBM 沃森、 DeepMind 、谷歌、 非死book 的基本算法。

2 )語音識別中 RNN 與 CTC 的不同

語音識別自然這個人工智能領域也自然會使用到深度學習,但是傳統的深度學習語音識別采用 RNN 循環神經網絡 (Recurrent Neural Network,) 方案,即:

輸入 ->RNN-> 輸出 ->MSF

目前科大訊飛等國內研究機構都是采用 RNN 模型。而也在 2006 年, jurgen Schmidhuber 團隊在 IDSIA 開放了一種解決方案— CTC(Connectionist Temporal Classification 鏈結式時間分類算法 ) ,即:

輸入 ->RNN-> 輸出 ->CTC-> 錯誤 ->RNN-> 輸出 ->CTC......

以求獲得最優解。

對比這兩種方案, CTC 的方案是較優的, RNN 的機器學習系統存在一定的標準損失,例如均方差和負數函數并不適合,而 CTC 方案之下則可以解決。

3 ) Warp-CTC 與 CTC

百度的 SVAIL 工程師在打造端對端語音識別系統時開發了 Warp-CTC ,目的是要改善培訓模型的可擴展性和效率。因為當前可用的 CTC 應用通常需要更大的內存,并且速度慢了數十數百倍不止。而經過百度方面的優化之后的 Warp-CTC 可以提高原來 CTC 運算效率 10 到 400 倍。

百度此次發布的 Warp-CTC 屬于 C 語言類型,并為 Torch 框架做了集成化處理。此外, Nervana 系統自帶的機器學習框架 Neon 也正在集成 Warp-CTC 。 Warp-CTC 可用于解決繪制輸入序列到輸出序列圖譜過程中的監督問題,如語音識別。第三方開發者可直接將 Warp-CTC 嵌入到自己的開發系統中,直接實現更為高效的開發過程。

目前百度將其徹底開源了出來,最后放在了 Github 上。

( https://github.com/baidu-research/warp-ctc )

二,對于行業的意義

1 )巨頭的標桿意義

縱觀國際,谷歌于 2015 年 11 月開源了 TensorFlow 系統,而 非死book 也于 2015 年 12 月公開 Big Sur 人工智能硬件架構。而百度于 2015 年 5 月開源了其深度學習平臺,又在此次開源了 Warp-CTC 系統,有著很好的榜樣作用。

百度將 Warp-CTC 核心代碼公布無疑是對行業大利好的事情。在開源之前, Warp-CTC 就已經被行業大量應用,已經幫助百度數億用戶的服務獲取,百度的兩大語音應用入口為 “ 百度地圖 ” 、 “ 手機百度 ” , “ 百度地圖 ” 的市場份額為 70% 日請求破 50 億次,而 “ 手機百度 ” 也一直長期盤踞在各大應用商店 TOP10 ,占 42% 。因此該系統的學習能力已經成熟,開發者可以直接使用遷移到自己的大數據產品中。

將錄音轉換為準確的文字以及圖像,相當于機器通過音頻得到圖像等多個目標,這是更為復雜的事情,這也是機器 “ 自我學習 ” 不得不做的事情, Warp-CTC 技術的應用將有效改善現有 CTC 對內存等硬件的龐大需求,并提升運算速度數十甚至數百倍。

2 )大數據的大值

目前巨頭紛紛開源人工智能技術,將迅速降低開發者部署深度學習系統的難度,人工智能的整個行業將會得到巨大發展,而企業方面也可以利用第三方提供的底層基礎設施去搶占紅利,這有點像安卓系統給了全世界智能手機的生產商帶來的巨大機會,當前的人工智能開源技術也與此類似,未來是大數據的時代,馬云也說過未來是從 “IT” 到 “DT” 的時代,而我們要做出的思考則是如何利用好這些數據,讓這些數據發揮出最大的價值,這同時有賴于當前對大數據的利用能力。而小米的雷軍也說過,如果小米最后無法成為一家大數據公司,那么小米離破產就不遠了,因為小米的大數據已經大到公司難以承受的地步。

因此,大數據中蘊藏的大價值,有待于更高的技術,而這些技術也必須依賴于強技術的公司,并且他們的開源將會為小公司帶來更快更好的進步,找到大數據中的大價值。

作者微信公眾號: shouxifayanzhe

來自: http://it.sohu.com/20160119/n434996117.shtml

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!