深度學習新方向:Multimodal CNN實現圖像文本匹配

jopen 8年前發布 | 10K 次閱讀 深度學習
 

在近日的 國際計算機視覺大會(ICCV 2015) 上,華為諾亞方舟實驗室報告的基于深度學習的多模態匹配模型在圖像與自然語句的雙向檢索的任務上,提出了深度學習研究及應用的一個新方向。

圖像與文本的理解一直是人工智能中最為重要的研究方向之一。近年來,隨著深度學習的廣泛應用,圖像與文本理解,譬如圖像識別,文本分類等,已經取 得了長足的進步。隨著互聯網的發達,愈來愈多的圖像與文本等多模態的信息伴隨彼此而共同出現。比如,新聞報道里的圖片與標題,微博上的信息與照片,微信朋 友圈的標題與照片等。如何從這共生的圖像與文本的信息里來學習以及挖掘它們之間的匹配關系,進而完成圖像與文本的檢索,圖像的標題生成,圖像問答等任務, 已經成為一個非常重要的研究方向。最近兩年內各個研究公司,包括Google、微軟,百度,以及知名高校,譬如斯坦福大學(Stanford University)、多倫多大學(University of Toronto),卡耐基梅隆大學(CMU),以及加州大學洛杉磯分校(UCLA)在內的多個研究機構都在不斷地推進這項研究。

圖像與文本的匹配關系的學習以及挖掘是一個非常困難的研究課題。首先,圖像跟文本在語義層面上具有非常不同的表現形式。相對于圖像的具體表現形 式,文本信息代表了人的語言,包含有更高的語義信息。因此,圖像與文本之間的匹配關系就非常的復雜。其次圖像跟文本之間的匹配關系的學習,不僅僅需要很好 的理解圖像跟文本,更要學習以及挖掘他們之間的交互關系等。

深度學習新方向:Multimodal CNN實現圖像文本匹配

諾亞方舟實驗室提出的學習圖像與文本匹配關系的Multimodal CNN模型

諾亞方舟實驗室致力于圖像與自然語言相結合的多模態的匹配學習,并以圖像與自然語句的雙向檢索作為其核心任務之一。與其他公司或者高校譬如Google、 微軟,百度,斯坦福大學、和多倫多大學等的策略不同,諾亞方舟實驗室在業界首先構建了一個多模態的卷積神經網絡(Multimodal CNN)。卷積神經網絡(CNN)在計算機視覺特別是圖像的識別方面已經取得了令人矚目的成功。但是CNN用于多模態的匹配問題還是比較前沿的嘗試。 華 為諾亞方舟實驗室構建的Multimodal CNN模型包含一個圖像CNN用于描述圖像信息,一個匹配(matching)CNN一方面完成文本信息中的單詞的語義構建,更為重要的是學習圖像與文本 之間的匹配關系。另外Multimodal CNN模型挖掘以及學習了圖像與文本在單詞級別,短語級別,以及句子級別的匹配關系,進而完全的描述了圖像與文本的復雜的匹配關系。 諾亞方舟實驗室研究員介紹,其研究的Multimodal CNN模型在圖像與文本的雙向搜索的任務上,超過了其他公司以及高校,達到了業界的領先水平。

隨著互聯網上圖像與文本信息增多,針對圖像與文本的多模態研究會吸引更多的企業以及高校的研究人員。諾亞方舟實驗室研究員表示,將也會持續關注以及研究這個新興的方向。

效果演示: http://mcnn.noahlab.com.hk/project.html

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!