Google人工智能技術新突破:可初步識別視頻中的人在做什么運動

jopen 9年前發布 | 7K 次閱讀 Google

人工智能要想理解真實世界發生的事,可以先從讀取視頻中的信息開始。Google、非死book等大公司都在進行圖像和語音的分析研究。Google卷積神經網絡(Convolutional Neural Networks,CNNs)技術的兩位軟件工程師在博客上公布了一些研究成果,其中很重要的一個突破是,能夠初步辨識出動態視頻的內容。

他們認為,由于動態視頻增加了時間這個維度,運動軌跡等信息豐富,這方面視頻反而比圖片更易識別和分類。但是,對視頻而言,不僅要分辨出圖像中的物體或人,還要搞清楚他們在干什么。如果想要完整地分析一整段視頻(如一場足球賽),從建模角度來說是個挑戰,因為其中很多參數需要調試,計算量大。

為了解決這些問題,他們會先提取圖像中的大致框架,如下圖所示,處理這種相對簡單的數據可以降低計算的復雜性。為了防止誤差過大,他們以光流法(Optical Flow)的形式觀察,也就是相對于觀察者的運動所造成的觀測目標、表面或邊緣的運動來判斷,如下圖所示。Image title

判斷效果可以看看下面這段視頻,雖然還比較原始,但是左上角的幾行信息就是AI判斷出的不同運動的概率,隨著視頻的推進,分析的概率也在變化。所以視頻末尾指出,每一幀出現的概率并不那么準確,應以視頻結束后系統的判斷為準。這項研究學術論文已發表,感興趣的話,可以移步這里

來自:http://36kr.com/p/531589.html

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!