IBM Watson視覺識別新高度,采用GPUs分布式網絡看懂圖片內涵
過去十年,人們前所未有地創造出大量視覺內容——從社交媒體到娛樂和制造業,甚至到那些遠離日常生活的繞地球衛星。隨著近期認知科技的進步,比如大規模的深層學習和基于語義層面的可視化建模,我們開始加速提高我們洞悉大數據的能力,此前雷鋒網也做過很多報道。但是追求更高水平的數據細節,對于科學家而言仍然是一個挑戰。
雷鋒網消息,IBM 近日邁出了重要一步,對 Watson 視覺識別圖像分類器( Watson Visual Recognition)的處理能力進行了更新,它能讓用戶理解圖像或者是視頻中的內容。這一系統內置數萬視覺標簽,使其常用詞匯量比之前的模式大 2.5 倍。內置詞匯量的擴大,使其識別特殊視覺概念的能力大大提高。
新植入的視覺標簽涵蓋了很多種類的視覺概念,其中包括物體、人、地點、活動、場景以及其它一些關于細致特點類型的詞匯,比如特定的顏色。
每一類詞匯的涉及深度都有所增加,也增加了很多特定的視覺描述詞匯。這使得新植入的分類器能夠對典型圖片進行更加精確詳細地分類。同時,它也以分類等級為基礎,對圖片增加了一般性描述——比如知道馬是一種動物。
該服務也能通過識別細小差別來對圖片進行詳細描述。比如圖片顯示“人們在愉快地就餐”,那么它能夠識別出,該場景不只是在餐館吃飯,而是能根據視覺形象更加詳細地描述出這是在啤酒園里。比如圖片顯示這是 GAIR 全球人工智能與機器人峰會的會場,機器也能識別出背景圖上的雷鋒網 Logo。
視覺識別能達到這么精確的水平,是因為它現在能夠平均為每個圖像至少貼上九個描述性標簽——之前平均只有兩到三個。
IBM 機器視覺負責人 Matthew Hill 表示:“我們之所以能取得這么大的進步,是因為我們用各種各樣的攝影鏡頭獲得的大量圖片進行了實驗,并且采用了圖形處理器(GPUs)的分布式網絡。 Watson 將所有這些信息都融合到具有數萬標簽的卷積神經網絡。我們也研發出新的推論方法:利用語義推理優化該服務對圖片的描述,使其更加特殊、突出、準確。”
當然,有些企業有自己的自定義數據,他們想為這些數據創造自己的分類器。 Watson 視覺識別也有自定義開發和分類的特點。當需要該服務需要為某一領域學習一套新的圖像標簽時(像產品組合),開發者可以進行快速開發,通過提供示例圖片植入新的自定義模型。然后,應用程序可以利用自定義模型,結合最基本的服務,用一般描述詞匯和特定領域的描述詞匯對圖片進行描述。自定義分類器也可以通過加入新的示例圖片來進行升級。
Hill 表示,視覺識別的發展是 IBM 持續提高 Watson 認知領域能力的重要一步。它是基于世界范圍內對視覺理解的不斷研發。視覺理解取得了一系列突破性進展,包括利用圖像分析改善對皮膚癌患者的治療,改進圖像自動生成字幕技術以及突破人工智能和創造性的限制,制作世界上第一步認知電影預告片等。
如果想了解更多信息,你可以點擊這里,獲得更多關于視覺識別服務的信息。雷鋒網也將對這一研究做后續關注。
來自: 雷鋒網