Google人工智能技術新突破：可初步識別視頻中的人在做什么運動

jopen 10年前發布 | 7K 次閱讀 Google

人工智能要想理解真實世界發生的事，可以先從讀取視頻中的信息開始。Google、非死book等大公司都在進行圖像和語音的分析研究。Google卷積神經網絡（Convolutional Neural Networks，CNNs）技術的兩位軟件工程師在博客上公布了一些研究成果，其中很重要的一個突破是，能夠初步辨識出動態視頻的內容。

他們認為，由于動態視頻增加了時間這個維度，運動軌跡等信息豐富，這方面視頻反而比圖片更易識別和分類。但是，對視頻而言，不僅要分辨出圖像中的物體或人，還要搞清楚他們在干什么。如果想要完整地分析一整段視頻（如一場足球賽），從建模角度來說是個挑戰，因為其中很多參數需要調試，計算量大。

為了解決這些問題，他們會先提取圖像中的大致框架，如下圖所示，處理這種相對簡單的數據可以降低計算的復雜性。為了防止誤差過大，他們以光流法（Optical Flow）的形式觀察，也就是相對于觀察者的運動所造成的觀測目標、表面或邊緣的運動來判斷，如下圖所示。 Image title

判斷效果可以看看下面這段視頻，雖然還比較原始，但是左上角的幾行信息就是AI判斷出的不同運動的概率，隨著視頻的推進，分析的概率也在變化。所以視頻末尾指出，每一幀出現的概率并不那么準確，應以視頻結束后系統的判斷為準。這項研究學術論文已發表，感興趣的話，可以移步這里。

來自：http://36kr.com/p/531589.html

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/850be0

Google

Google人工智能技術新突破：可初步識別視頻中的人在做什么運動

相關資訊

相關經驗

相關文檔