谷歌用于圖像識別的機器學習模型已移植至TensorFlow并已開源
隨著 announcement 宣布將用于圖像識別的 TensorFlow 模型,以及對新老方法的精確度和性能進行比較評測的測試方法開源,谷歌Google在過去幾年中邁上了一段全新的旅程。2014年的Inception V1 ,2015年的Inception V2 ,以及最新發布的Inception V3 模型逐漸完善,分別以89.6%、91.8%,以及93.9%準確度的成績位居 ImageNet 2012圖像 分類 測試的前五名。在使用 BLEU -4指標衡量機器生成的注解的測試中,通過將一種 自然 語言的 語句 翻譯成另一種語言并對準確度進行比較,基于TensorFlow的方法相比原本最先進的 DistBelief 模型也取得了領先兩分的成績。
在從原有實現中移植模型,并對其進行完善的過程中,最重要的問題之一在于對圖像中的對象進行分類,以及對對象進行描述并將一張圖像中的對象與另一張圖像中的對象進行關聯。為了解決這一問題,該模型在分類操作之外增加了一個微調操作,可以讓模型提取用于描述對象細節的有用信息。通過將圖像分類操作拆分為多個步驟,首先識別其他操作中確定的對象,并增加形容和預處理操作,并為要處理的注解提供必要的結構,使其在語句結構上更為準確,更類人。
該模型有一個 范例 :識別鐵軌上的火車圖像,隨后識別火車為黃色夾雜著藍色。最終合成的結果識別為:黃藍相間的火車正行駛在鐵軌上。雖然在本例中模型能否確定靜態圖片中對象是運動中的或靜止的并不重要,但所輸入圖像的注解在訓練數據中將類似圖像中的對象描述為運動中的或靜止的,這很重要。
該模型可將之前學習到的圖像注解中的不同元素組合在一起,針對更多圖像創建全新的注解,新的圖像中可以包含多個已分類對象,但所有對象并未包含在同一個訓練數據集中。在這個 范例 中,該模型自行創建出一個之前并不存在的注解。
在對原有模型的實現與新的模型進行性能評測對比發現,在通過Nvidia K20 GPU運行DistBelief以及全新的基于TensorFlow的Inception V3進行的性能對比中,TensorFlow的訓練時間(0.7秒)僅為DistBelief(3.0秒)的25%。除了基于TensorFlow的Inception V3圖像分類模型,谷歌還提到了即將 發布 的 Inception-ResNet-v2 模型,但并未談到有關該模型的性能評測信息。雖然未使用訓練數據集,但他們會通過人工生成的圖像注解作為最基礎的訓練數。
來自: http://www.infoq.com/cn/news/2016/11/tensorflow-image-captioning