當機器學習遇到機器視覺
原文 http://www.dataguru.cn/article-6568-1.html
本主題包括兩篇文章,由微軟研究院和劍橋大學的Jamie Shotton,Antonio Criminisi,Sebastian Nowozin共同完成。
機器視覺是通過計算機算法自動理解圖片內容的技術,十九世紀六十年代,它起源于人工智能和認知神經科學。為了“解決”機器視覺的問題,1966 年,在麻省理工學院,這個問題作為一個夏季項目被提出,但是人們很快發現要解決這個問題可能還需要更長的路要走。在50年后的今天,一般的圖像理解任務仍 舊是不能得到完美解決。但是也已取得顯著進展,并且隨著機器視覺算法商業化的成功,機器視覺產品已經開始擁有廣泛的用戶,包括圖像分割(例如微軟 office中去除圖片背景的功能)、圖像檢索、人臉檢測對焦和Kinect的人體行為捕獲等。幾乎可以確定的是機器視覺最近的突飛猛進主要得益于最近 15到20年機器學習領域的快速發展。
本主題的第一篇文章主要是探索一下機器視覺所面臨的挑戰和介紹一個非常重要的機器學習技術——像素智能分類決策樹算法。
圖像分類
想像一下并試著回答下面這個有關圖像分類的問題:“在這張圖片中有一輛汽車嗎”。對于計算機來說,一張圖片僅僅是由三原色(紅、綠、藍)構成的像 素組成的格子,三原色中每一個顏色通道的值的范圍都是0到255。這些值的改變不僅依賴于事物對象是否在圖片中呈現,也依賴于一些干擾事件,比如攝像機的 視角、燈光條件、背景和對象的形態。另外,一個必須處理的問題是不同類別的汽車呈現不同的形狀。例如,這輛汽車可能是輛旅行車、或者小卡車、或者是輛跑 車,這些都會對圖片像素造成很大影響。
幸運的是監督機器學習算法提供了替代原本需要人工編碼解決這些多可能性的問題的方式。通過收集圖片的訓練集和適當的人工標記每一張訓練圖片,我們 能夠使用最好的機器學習算法找到哪些像素模式是同要識別的對象相關的以及哪些是干擾因素產生的。我們希望我們的算法最終能夠適用于識別以前沒有經過訓練的 新的樣本,并且對于噪聲保持不變性。在新的機器視覺算法的發展和數據集的收集標注兩個方面我們都取得了長足的進步。
像素智能分類決策樹算法
圖片在很多層面上包含細節。就像前面我們提到的,我們可以問一個問題——在整張圖片中是否有一個特定的對象類別(比如汽車)。現在我們可以問一個 更難點的問題——這張圖里都包含了什么,這就變成了一個著名的問題“圖像語義分割”:提取圖片場景中所有的對象。例如下面街道場景的圖片。
你可以想象一下,這可以用于幫助你有選擇的編輯一些照片,或者用于拼接一張全新的照片;我們還能馬上想出更多的應用場景。
解決語義分割問題可以有很多方法,但是一個最有效的算法是像素智能分類:訓練一個分類器在像素級別預測每一個對象(如汽車、街道、樹、墻等)分布 情況。這個任務帶給機器學習一些計算問題,特別是圖片包括很多的像素的時候(例如,諾基亞1020智能手機拍照的像素是4100萬像素)。這就意味著整個 運算時間是我們分類任務全部訓練和測試樣本圖片乘以幾百萬的倍數。
這個問題的規模促使我們尋找一個更有效的分類模型——決策樹(也稱為隨機樹或隨機決策樹)。一個決策樹是一個分離訓練后的決策樹的集合,如下圖所示。
每一決策樹都有一個根節點,多個內部“分支”節點,和多個葉子節點。測試分類時,從根節點開始,并且計算二叉“分支函數”,這個函數可能就像“這 個像素是否比它的鄰域像素更紅”一樣簡單。根據該二元決策,它將沿分支向左或向右,接下來查看下一個“分支函數”,一直重復這樣的操作。當最終達到葉子節 點,一個存儲的預測——通常是一個包含類別標簽的直方圖——就是輸出(你也可以去看一下Chris Burges最近的一篇非常出色的論文,是關于提升變種決策樹在搜索排名中的應用)。
決策樹的美在于他的執行效率:雖然從根節點到葉子節點包含指數級可能的路徑,但是任意一個獨立的測試像素僅僅通過一個路經。此外,分支函數的計算 是以此前的事件為條件的:例如,分類器只需要依賴此前分支決策的答案提出正確的問題就行了。這很像“20問”游戲:當你僅被允許去問少量問題時,你可以很 快學會根據你以前問題的答案來調整自己要提出的下一個問題。
有了這項技術,我們已經能夠成功處理這些不同的問題,如照片的語義分割,街頭的場景分割,人體解剖學的3D醫學掃描圖像分割,攝像頭的重定位和使 用Kinect深度攝像頭對人體身體部位的劃分。對于Kinect來講,決策樹測試時間效率是關鍵:我們有一個非常嚴格的計算預算,但是這樣的計算要求搭 配Xbox GPU并行處理像素的能力,意味著我們能夠適應這種應用場景[1]。
Jamie, Antonio and Sebastian
[1] 身體部位分類只是骨骼追蹤的一個階段,整個骨骼追蹤方案是Xbox的 fantastic team 的工程師完成的。