人臉識別:應用開啟創新潮,算法進展才起步

jopen 9年前發布 | 25K 次閱讀 人臉識別

 

人臉識別:應用開啟創新潮,算法進展才起步

作者:微軟亞洲研究院視覺計算組首席研究員孫劍

近期,微軟發布了一款有趣的應用 ——“ 微軟我們 ”( TwinsOrNot.net ),只需任意上傳兩張人物照片,就可以知道他們長的有多像,比如,測試你是否和某個明星長得很像,或者夫妻 / 男女朋友是不是有夫妻相等。與前一陣風靡全球的 How-Old.net 相似,它們都很巧妙地將人臉識別與社交網絡中的人際交往結合在一起,雖然不能做到百分之百精確,但高科技加詼諧的人際交往和傳播效果,可以說是人臉識別技術和社交網絡發展到一定階段、自然而然的應用創新。

人臉識別:應用開啟創新潮,算法進展才起步

在可以預見的未來,這樣的創新會越來越多,而且將不僅限于娛樂或是創造茶余飯后的談資。在 Build 2015 開發者大會上,微軟推出了基于云計算平臺 Azure 牛津計劃 Project Oxford ),它可以提供一系列基于機器學習的技術服務,除了人臉識別,還有語音處理、計算機視覺和語言理解等智能服務,賦予開發者開發人工智能應用的能力。每個開發者都可以利用這些匯聚微軟研究院多年研究成果的 API 設計、開發自己的應用,而無需成為數據科學家或者掌握相關基礎技術。基于牛津計劃的人臉識別 API ,微軟工程師僅用了幾個小時就開發出前文提到的人臉識別應用最初的演示版。

人臉識別:應用開啟創新潮,算法進展才起步

開發者們可以用牛津計劃的 API 實現很多有趣的想法,而作為提供人臉識別技術的中國研究團隊,我們要做的除了根據用戶反饋快速迭代精進 API ,更要從研究本源上不斷優化人臉識別算法。

大量”閱讀“照片學習辨識,深度學習成主流識別方式

微軟亞洲研究院在人臉識別領域已經耕耘了近 20 年時間,從最早的子空間方法,到后來的局部描述子方法,再到現在的深度學習方法,我們歷經了所有人臉識別技術的主流研究方法。

20 世紀 80 90 年代,人臉識別的誤差還比較大,應用領域也很有限,通常在檢查證件照等特定領域才會使用。當時的技術頗為簡單,通常是將圖像經簡單的預處理后線性地映射到一個高維向量空間中。由于只是線性模型能力的不足,那時的識別準確率與今天相比大概是數 10 倍的差距。

2000 年~ 2010 年,局部描述子方法成為研究主流。它在人臉的局部區域(如眉、眼、鼻、嘴等)抽取局部描述子,再線性或非線性地映射到高維向量空間中去。這類方法的識別準確率較上一階段的子空間方法有很大提升。不過因為特征和模型始終是人工設計的,所以仍然存在一定的局限性。

2012 年至今,深度學習方法在學術界被迅速地廣泛使用。通過深層神經網絡訓練出來的人臉識別算法極大地提高了識別精度。簡而言之,就是讓已經在網絡結構中預設了人臉識別先驗知識的神 經網絡大量“閱讀”很多人在各種環境(例如光照,視角,表情)下拍攝到的不同人臉照片,自動學習并提取人臉各個部位和尺度的低,中,高層特征。在大量學習之后,它便能根據所提供的監督信息將不同的人分開。

隨著計算機技術的發展,廉價的 PC+GPU 的方式可以提供上千個并行的計算單元,這讓深度學習一下子在多個計算機研究領域異軍突起,成就了相當多全新的研究方法。

人臉識別的基礎環節

How-Old.net 和“微軟我們”主要是對靜態的人臉照片進行識別,這只使用了人臉識別技術中的一小部分。一個完整的人臉識別系統,可以在含有人臉的圖片或視頻流中自動檢測和跟蹤人臉,進而達到識別目的,通常也叫做人像識別、面部識別。總的來說,人臉識別系統可以大致分為以下四個部分:

首先,檢測人臉在哪里。 首先要從照片中識別出人臉在哪里,它的大小、位置等。目前 常用的是級聯分類器,可以利用人工設計的特征模型或深度學習模式進行一級一級的篩選。若要加快速度,可在前期使用人工設計的特征模型,快速篩去不是人臉的 部位,后期利用深度學習去精細化地判斷每一個留下的部位是否是人臉。

其次,定位人臉和各個部位。 在給定人臉之后,再確定出鼻子、眼睛、嘴巴等,這通常采用回歸預測的方法。回歸器可以有很多種,隨機森林方法、深度學習方法都能實現。以深度學習為例,訓 練的時候告訴回歸器到底眼睛在哪里、鼻尖在哪里,預測值和真實值的距離越小越好,并據此不斷調整回歸器的參數,用成千上萬的人臉照片反復訓練,直到回歸器 能夠準確輸出人臉各個器官的準確位置信息。

第三,人臉特征的匹配與識別。 這個過程是將待識別的人臉特征與已經得到的人臉特征模板進行比較,根據詳細程度對人臉的身份信息進行判斷。使用深度學習方法可以大大簡化這一過程,因為所有的特征匹配都是由神經網絡自動實現,這也是目前最有效的識別方法。

最后,人臉屬性的識別。 用戶感興趣的人臉屬性可能包含很多,比如年齡(使用在 How-Old.net 中),性別,表情,種族,發型,是否戴眼鏡,胡子的類型。這類屬性通常使用深度學習方法可直接進行分類或回歸。

高識別率與用戶體驗

雖然經常聽說有人臉識別算法的準確率在某個特定的評測數據庫上已經超過人類的識別率,但在實際應用場景中,并沒有一個放之四海的基準可以去衡量人臉識別算法的準確率。針對不同的應用,訓練數據和算法共同決定了識別率和用戶體驗。

錯誤接受率是人臉識別中的一個重要指標,通常錯誤接受率越低越好。不能錯放任何一個人進去,嚴格確保安全,但同時也可能意味著真正 的用戶在多次嘗試刷臉之后也進不去,這大大降低了最終的用戶體驗。所以在實際應用中,安全與用戶體驗的謹慎平衡是必須要考慮的重要因素。所以,當我們看到 人臉識別應用的巨大進步時,仍需要客觀、嚴謹地對待人臉識別算法本身,時刻提醒自己,它的局限性猶存,我們還需要不斷尋求更多、更有效的方法去提升它

結束語

科學研究的每一次進步,都會催生多種多樣的創新應用。深度學習、社交網絡、移動互聯網的興起相互交叉,加之人臉識別研究多年的積累,開啟了人臉識 別應用的創新潮,它們或有趣、或實用,并且一定會越來越多。或許在不久的未來,計算機就能夠通過人類的表情和肢體語言體會人類的喜怒哀樂。

相關閱讀

你的分身是誰?—— # 微軟我們 # 告訴你

微軟 Project Oxford 幫助開發人員創建更智能的應用

人臉識別:應用開啟創新潮,算法進展才起步

歡迎關注

微軟亞洲研究院官方網站: http://www.msra.cn

微軟亞洲研究院人人網主頁: http://page.renren.com/600674137

微軟亞洲研究院微博: http://t.sina.com.cn/msra

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!