IBM Watson視覺識別新高度，采用GPUs分布式網絡看懂圖片內涵

jopen 9年前發布 | 6K 次閱讀 Watson

過去十年，人們前所未有地創造出大量視覺內容——從社交媒體到娛樂和制造業，甚至到那些遠離日常生活的繞地球衛星。隨著近期認知科技的進步，比如大規模的深層學習和基于語義層面的可視化建模，我們開始加速提高我們洞悉大數據的能力，此前雷鋒網也做過很多報道。但是追求更高水平的數據細節，對于科學家而言仍然是一個挑戰。

雷鋒網消息，IBM 近日邁出了重要一步，對 Watson 視覺識別圖像分類器（ Watson Visual Recognition）的處理能力進行了更新，它能讓用戶理解圖像或者是視頻中的內容。這一系統內置數萬視覺標簽，使其常用詞匯量比之前的模式大 2.5 倍。內置詞匯量的擴大，使其識別特殊視覺概念的能力大大提高。

新植入的視覺標簽涵蓋了很多種類的視覺概念，其中包括物體、人、地點、活動、場景以及其它一些關于細致特點類型的詞匯，比如特定的顏色。

每一類詞匯的涉及深度都有所增加，也增加了很多特定的視覺描述詞匯。這使得新植入的分類器能夠對典型圖片進行更加精確詳細地分類。同時，它也以分類等級為基礎，對圖片增加了一般性描述——比如知道馬是一種動物。

IBM Watson視覺識別新高度，采用GPUs分布式網絡看懂圖片內涵

該服務也能通過識別細小差別來對圖片進行詳細描述。比如圖片顯示“人們在愉快地就餐”，那么它能夠識別出，該場景不只是在餐館吃飯，而是能根據視覺形象更加詳細地描述出這是在啤酒園里。比如圖片顯示這是 GAIR 全球人工智能與機器人峰會的會場，機器也能識別出背景圖上的雷鋒網 Logo。

視覺識別能達到這么精確的水平，是因為它現在能夠平均為每個圖像至少貼上九個描述性標簽——之前平均只有兩到三個。

IBM 機器視覺負責人 Matthew Hill 表示：“我們之所以能取得這么大的進步，是因為我們用各種各樣的攝影鏡頭獲得的大量圖片進行了實驗，并且采用了圖形處理器（GPUs）的分布式網絡。 Watson 將所有這些信息都融合到具有數萬標簽的卷積神經網絡。我們也研發出新的推論方法：利用語義推理優化該服務對圖片的描述，使其更加特殊、突出、準確。”

當然，有些企業有自己的自定義數據，他們想為這些數據創造自己的分類器。 Watson 視覺識別也有自定義開發和分類的特點。當需要該服務需要為某一領域學習一套新的圖像標簽時（像產品組合），開發者可以進行快速開發，通過提供示例圖片植入新的自定義模型。然后，應用程序可以利用自定義模型，結合最基本的服務，用一般描述詞匯和特定領域的描述詞匯對圖片進行描述。自定義分類器也可以通過加入新的示例圖片來進行升級。

Hill 表示，視覺識別的發展是 IBM 持續提高 Watson 認知領域能力的重要一步。它是基于世界范圍內對視覺理解的不斷研發。視覺理解取得了一系列突破性進展，包括利用圖像分析改善對皮膚癌患者的治療，改進圖像自動生成字幕技術以及突破人工智能和創造性的限制，制作世界上第一步認知電影預告片等。

如果想了解更多信息，你可以點擊這里，獲得更多關于視覺識別服務的信息。雷鋒網也將對這一研究做后續關注。

來自: 雷鋒網

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/7ab2a051

Watson

IBM Watson視覺識別新高度，采用GPUs分布式網絡看懂圖片內涵

相關資訊

相關經驗

相關文檔