IBM Watson視覺識別新高度,采用GPUs分布式網絡看懂圖片內涵

jopen 7年前發布 | 6K 次閱讀 Watson

IBM Watson視覺識別新高度,采用GPUs分布式網絡看懂圖片內涵

過去十年,人們前所未有地創造出大量視覺內容——從社交媒體到娛樂和制造業,甚至到那些遠離日常生活的繞地球衛星。隨著近期認知科技的進步,比如大規模的深層學習和基于語義層面的可視化建模,我們開始加速提高我們洞悉大數據的能力,此前雷鋒網也做過很多報道。但是追求更高水平的數據細節,對于科學家而言仍然是一個挑戰。

雷鋒網消息,IBM 近日邁出了重要一步,對 Watson 視覺識別圖像分類器( Watson Visual Recognition)的處理能力進行了更新,它能讓用戶理解圖像或者是視頻中的內容。這一系統內置數萬視覺標簽,使其常用詞匯量比之前的模式大 2.5 倍。內置詞匯量的擴大,使其識別特殊視覺概念的能力大大提高。

新植入的視覺標簽涵蓋了很多種類的視覺概念,其中包括物體、人、地點、活動、場景以及其它一些關于細致特點類型的詞匯,比如特定的顏色。

每一類詞匯的涉及深度都有所增加,也增加了很多特定的視覺描述詞匯。這使得新植入的分類器能夠對典型圖片進行更加精確詳細地分類。同時,它也以分類等級為基礎,對圖片增加了一般性描述——比如知道馬是一種動物。

IBM Watson視覺識別新高度,采用GPUs分布式網絡看懂圖片內涵

該服務也能通過識別細小差別來對圖片進行詳細描述。比如圖片顯示“人們在愉快地就餐”,那么它能夠識別出,該場景不只是在餐館吃飯,而是能根據視覺形象更加詳細地描述出這是在啤酒園里。比如圖片顯示這是 GAIR 全球人工智能與機器人峰會的會場,機器也能識別出背景圖上的雷鋒網 Logo。

視覺識別能達到這么精確的水平,是因為它現在能夠平均為每個圖像至少貼上九個描述性標簽——之前平均只有兩到三個。

IBM 機器視覺負責人 Matthew Hill 表示:“我們之所以能取得這么大的進步,是因為我們用各種各樣的攝影鏡頭獲得的大量圖片進行了實驗,并且采用了圖形處理器(GPUs)的分布式網絡。 Watson 將所有這些信息都融合到具有數萬標簽的卷積神經網絡。我們也研發出新的推論方法:利用語義推理優化該服務對圖片的描述,使其更加特殊、突出、準確。”

當然,有些企業有自己的自定義數據,他們想為這些數據創造自己的分類器。 Watson 視覺識別也有自定義開發和分類的特點。當需要該服務需要為某一領域學習一套新的圖像標簽時(像產品組合),開發者可以進行快速開發,通過提供示例圖片植入新的自定義模型。然后,應用程序可以利用自定義模型,結合最基本的服務,用一般描述詞匯和特定領域的描述詞匯對圖片進行描述。自定義分類器也可以通過加入新的示例圖片來進行升級。

Hill 表示,視覺識別的發展是 IBM 持續提高 Watson 認知領域能力的重要一步。它是基于世界范圍內對視覺理解的不斷研發。視覺理解取得了一系列突破性進展,包括利用圖像分析改善對皮膚癌患者的治療,改進圖像自動生成字幕技術以及突破人工智能和創造性的限制,制作世界上第一步認知電影預告片等。

如果想了解更多信息,你可以點擊這里,獲得更多關于視覺識別服務的信息。雷鋒網也將對這一研究做后續關注。

來自: 雷鋒網

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!