不服跑個分?人工智能也出現“刷分”亂象

jopen 9年前發布 | 9K 次閱讀 人工智能

原文  http://www.pingwest.com/face-recognition-is-not-a-simple-score-game/

2014年,人工智能領域突然爆發,成為了科研和科技創業的熱門領域。特別是到了去年年底的時候,巨頭公司也好創業公司也罷,頻繁發布圖像、語音識別等相關人工智能領域的研究成果和學術論文,大有中國人將引領世界人工智能技術革命的架勢。

<p> 在所有進行人工智能研究的公司當中,百度無疑是成績最卓越的那家。根據余凱 <a href="/misc/goto?guid=4958862538793924895" target="_blank">透露的情況</a> ,IDL在人臉識別方面取得了99.62%準確率的頂尖級成績。對比來看, <a href="/misc/goto?guid=4958862538885761610" target="_blank">非死book人工智能實驗室2014年6月底對外公布的成績只有97.35%</a> ( <a href="/misc/goto?guid=4958862538988298997" target="_blank">論文鏈接</a> ),比百度成績低了2個百分點;而斯坦福大學研究人員發現用人測試的準確率大約是99.2%,比百度的成績低了零點4個百分點。 </p>

<p> 在驚訝于百度取得世界最好的人臉識別準確率成績之余,也有不少人對如何定義準確率產生了疑惑。何為人臉識別的“準確率”?準確率多高算高?帶著一系列問題,PingWest品玩開始尋找答案。 </p>

<p> 根據已經公開的資料,前文所提到的“準確率”,指的是對全世界最權威的人臉數據庫 <a href="/misc/goto?guid=4958862539079369469" target="_blank">LFW(Labeled Faces in the Wild)</a> 進行比對測試的成績。LFW可以被認作一個考察深度學習系統人臉識別能力的“題庫”,由美國馬薩諸塞大學阿默斯特分校管理。它會從互聯網上(其實主要就是 Yahoo News)提取6000張不同朝向、表情和光照環境的人臉照片(大多為知名人士的新聞照片,足夠高清,且重復的人的照片基本在同一時期拍攝,也即外貌變化 不大)作為考題,可以讓任何系統在里面“跑分”。 </p>

<p> 跑分的過程是這樣的:LFW給出一對照片,詢問測試中的系統兩張照片是不是同一個人,系統給出yes或no的答案。99.62%的準確率,意味著在測試中的所有題目里,百度的人臉識別系統答對了99.62%的題目。 </p>

<p> 圖像識別技術公司 <a href="/misc/goto?guid=4958862539174598237" target="_blank">曠視科技(Megvii/Face++)</a> 創始人印奇向PingWest品玩確認,非死book目前公開的DeepFace論文,顯示其LFW準確率的確是97.35%,非死book在達 到這個成績之后就沒再繼續公開過后續的LFW成績(如果有的話)。PingWest品玩發現,Google的成績同樣未公開,不過從余凱的言論中可以確 認,在LFW比對測試上,百度、Google和非死book同處于世界最高水平。LFW多高算高?至少超過非死book的97.35%才算 “高”。 </p>

<p> 然而,關于LFW的成績,對一家公司或研究機構的人臉識別技術實力究竟有多大的代表性,印奇有不一樣的觀點。 </p>

<p> “LFW純粹是一個題庫性質的測試,最主要的作用是測試一套系統能不能達到基本的人臉識別能力。”也就是說,如果所有的人臉識別系統都是3歲小孩,LFW就是用來測試這些小孩夠不夠上幼兒園的智力水平測試。 <span>“為什么說它是題庫,就是因為這6000組網絡樣本——6000張照片,是固定的。任何一個系統都可以對這6000組樣本進行有針對性的優化,從而達到刷高分的效果。”</span> </p>

<p> 印奇對PingWest品玩透露,“刷分”并不能代表研究單位的真實技術水平。一位不愿意透露姓名的圖像識別專家表示:“把題庫背下來了,整個人就變聰明了?這樣說是行不通的。” </p>

<p> 該專家指出,包括一些大型互聯網公司,以及“不少大學教授,特別是華人教授”出來創業的人臉識別研究團隊,多少都有在LFW測試上刷分并將其作為 宣傳點的行為存在:“并不是說這樣做不對,而是對人臉識別行業的研究沒有實質性的意義。”PingWest品玩發現,在搜索引擎中輸入“人臉識別”、準確 率等關鍵詞,可以搜索到許多條大公司和初創公司拿下超99%準確率的條目。 </p>

<div> 
 <img src="https://simg.open-open.com/show/9ea948a4efaa72bbd3c4cbd080ae82bc.png" alt="不服跑個分?人工智能也出現“刷分”亂象" width="700" height="503" /> 
 <p> Labeled Faces in the Wild (LFW) Samples </p>

</div>

<p> 印奇對PingWest品玩透露,業界一些人工智能和深度學習領域的大小團隊之間的風氣不太好。它們無外乎幾種類型——他們極少談及自己的技術實力和商業應用能力,而是: </p>

<p> 1. 強調團隊創始人是海歸大師、名教授、學術泰斗; </p>

<p> 2. 強調天使、pre-A就已經獲得某某世界知名基金數千萬美元投資; </p>

<p> 3. 經常出席各類演講場合,陳詞濫調人工智能歷史,千篇一律大膽預測人工智能發展未來; </p>

<p> 4. 巧妙地利用規則進行刷分。 </p>

<p> 其中,前三條已經是整個互聯網創業圈的通病了,而第四條則是目前 <a href="/misc/goto?guid=4958862539272465188" target="_blank">人工智能研究領域的一個嚴重問題</a> 。 </p>

<p> 印奇對PingWest品玩透露,曠視科技前段時間剛剛用一種比較低智程度的卷積神經網絡(Convolutional Neural Network,CNN)刷了一次分,沒有針對LFW“題庫”進行專門優化,就刷到了99.5%的頂尖成績。在此之前,曠視科技并沒有對外公開過LFW比 對測試的分數。 </p>

<p> 但問題是,LFW是一個純粹實驗室級別、學術性質的測試工具。在樣本量可能達到十萬級、百萬級的實際商業場景下,LFW里取得高準確度的系統并不一定能延續刷出來成績,其誤識率將直線上升,甚至有可能根本沒法用。 </p>

<p> 印奇用Face++的金融業務舉例。比如,在支付寶使用人臉驗證、或者未來的互聯網銀行用人臉來進行遠程開卡校驗過程的時候,用戶用前置攝像頭拍 下自己,圖片傳輸到識別系統當中,而跟這張臨時照片進行比對的照片通常是身份證照片。這意味著,兩張用于比對的照片既不是高清,也有可能存在胡須、發型、 眼鏡等不同特征,更有可能不在同一時期,存在年齡導致的特征變化,從而提高系統的識別難度。 </p>

<p> “實際情況中,樣本量可就不是6000個了,你想想支付寶有多少用戶……在金融領域,通常要求的誤識率在10的負5次方到負6次方。在這個誤識率水平上,金融客戶會要求你給出一個至少90%的通過率。”印奇指出。 </p>

<p> 根據PingWest品玩了解,誤識率和通過率的定義如下: 誤識率:將兩個不同的人錯認為是一個人的比率; 通過率:能夠正確識別前來進行比對的人是本人,并放行的比率。 </p>

<p> 在LFW跑完分之后,曠視轉而用自己的成績來“打臉”,將這個模型扔到金融場景的證件照比對上,發現在萬分之一的誤識率基礎上,連70%的通過率成績都達不到。 </p>

<p> 用通俗的話說:有這樣一家識別人臉準許進門的銀行,一萬個人里面系統就至少得把一個人認成另外的人,萬一這個人正好就是個大案要犯呢?然后認對的 人里面還有30%通不過,意味著就算你不是罪犯,也有極高的可能被擋在銀行外面不讓你進。前者會對銀行的安全帶來重大隱患,后者則嚴重降低了用戶體驗。 </p>

<div> 
 <img src="https://simg.open-open.com/show/dfffedcd75b79ba1a7e1152af3e78dc6.png" alt="不服跑個分?人工智能也出現“刷分”亂象" width="700" height="468" /> 
 <p> 在銀行和安防場景中,人臉識別系統的準確度要求更高,條件也復雜得多,比如圖像清晰度低(幾十×幾十的像素)、人臉移動(行走)、要求的識別速度極快… </p>

</div>

<p> LFW成績和實際商業應用的要求之間的區別,就在這里。據了解,曠視目前可以在十萬分之一誤識率的前提下,通過率達到93%,高于此前 <a href="/misc/goto?guid=4958862539372429637" target="_blank">商業周刊中文版報道</a> 的萬分之一誤識率下通過率超過90%。 然而,業界很多人臉識別研究單位并未對外公開過在商業識別場景下的成績。 </p>

<p> 前述專家認為,這個情況是因為很多研究單位對于人工智能研究并沒有一個清晰的商業化導向。“用人臉識別來說, <strong>刷LFW分成為了技術無法商業化的救命稻草。</strong> 你這個東西沒法商業化,但總要對上對下對外有一個交代是吧?” </p>

<p> 具體來說,大公司有多種領域和形態的業務,也有海量的應用場景,但并不是每一個場景都可以將人工智能研究能力商業化。在人臉識別方面,如果這家公司跟人臉就不怎么打交道,也就沒有將技術商業化的動力。 </p>

<p> “商業化對于人工智能太重要了,你沒有明確的商業化產品落地,就不會規模化的數據反饋產生。人工智能是一個數據量要求極大的領域,人人都在說自己 家的‘大腦’有多聰明,可是絕大部分的深度學習系統其實做的都是規模化和結構化數據的積累。現階段聰明的‘大腦’不是有多會思考,而是有多少知識儲備。你 不搞商業化,沒有足夠的數據來反哺系統,系統又怎能變得更聰明呢?”印奇說道。 </p>

<p> 刷分就像應試教育,不是誰分數高誰就一定厲害。用一句流行語來說就是:不看廣告看療效。 </p>

</div>

</div>

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!