五大可識別圖片的人工智能技術

jopen 9年前發布 | 14K 次閱讀 人工智能

很長一段時間以來,人工智能的研究都停留在文字層面,比如著名的圖靈測試(Turning Test),證明了機器能夠像人類一樣智能地回答書面問題。

而如果讓機器變得更聰明,僅僅處理文字顯然是不夠的。事實上,人類心智非常善于視覺處理。從所見當中識別圖案、物體以及文本情景的能力讓我們很智能,這種能力也是人的本質特征。

不過直到最近,計算機都對圖片束手無策。比如,除非人為添加一些標簽和注釋,否則機器就無法理解圖片,圖片也就是成了無用的文件。

但是,這種尷尬的情況正在發生變化。一大批能看懂圖片的人工智能技術已經來到人間,下面不妨來看看機器之心的盤點:

谷歌 TensorFlow

5月份谷歌推出 Google Photos時,媒體關注的焦點是:人工智能和圖片搜索結合后所產生的強大功能。谷歌聲稱(并且用戶也很快確認),搜尋特定某人,你會找到對方從現在到嬰 兒時期的照片。搜索品種名,你就能找到相應品種狗的照片。把名字和食品類別結合起來,比如輸入「最大披薩」,就能鎖定特定圖片。

這款應用發布之初,媒體無從得知谷歌究竟研發了多長時間。不過,一些搜索功能在Google+上出現一年多了。

兩周前,谷歌以TensorFlow平臺形式開源了它的人工智能主體部分。

盡管TensorFlow并不是第一個開源人工智能平臺,但是,它是與谷歌強大圖片搜索關系最為密切一個。

開源TensorFlow意味著,包括初創公司在內的其他公司,能夠利用谷歌的這個開源平臺,快速將人工智能和圖片結合起來。盡管谷歌并未開放人工 智能關鍵技術,包括在眾多服務器上運行的能力。谷歌也沒有開放讓其如此強大的用戶數據庫。但是,谷歌的此舉毫無疑問將刺激整個機器學習和人工智能創業生態 的發展。

我們也期待著基于TensorFlow的各種震撼新應用能于明年進入市場。

非死book Photo Magic

非死book近期開始在Messenger應用上測試一項新功能——非死book Photo Magic。這是一個可選應用,它會掃描手機相冊照片并對它們進行面部識別處理。Photo Magic會識別照片中的人物(他們也是你的非死book好友),建議你和他們一起分享這些照片。

毫無疑問,這項功能給非死book帶來了雙重優勢。首先,它鼓勵用戶更多在Messenger上分享。其次,它改善了識別。但是,僅僅這項便利 功能是不夠的,用戶實際上可以贊成或拒絕在任意燈光條件、角度和其他參數條件下,非死book使用人工智能對面部和名字進行匹配。非死book人 工智能掌握的照片越多,識別效果也越好。

令人吃驚的是,即使遮住了臉部,非死book的「面部識別」一樣能能識別出你的臉部。這個系統也關注發型、姿勢、衣著和身材。(請注意,我們并不清楚非死book是否已經實現了這種先進系統,但很明顯的是,它從用戶照片中收集數據。)

非死book 的Photo Magic拓展了圖片庫來源,它不僅收集非死book(社交網站),還收集Messenger(聊天應用)的數據,擴充了數據量。Photo Magic還鼓勵贊成或否定匹配結果,提高數據質量。

很明顯,非死book最終目標是識別任意場景中的任何人,即使在看不清臉部的惡劣燈光條件下。毫無疑問,未來非死book的人工智能會掃描 和分析環境,發現可市場化的線索——比如,如果某人在照片里經常打棒球,廣告商就可以利用這個信息鎖定棒球迷,盡管他在上傳照片的文字里并沒有表露出這種 興趣。

毫無疑問,他們也打算通過觀察圖片中一起出現的人,進一步建立社交圖譜。

微軟牛津項目(Project Oxford)

微軟日前也更新它的牛津項目,這是一個工具包,讓開發者通過旗下的Azure云平臺,使用微軟的人工智能系統。

這個工具包支持人工智能各個方面的應用,包括口語,視頻和其他媒體。但是,最震撼和最強大的功能莫過于牛津項目現在支持開發者通過牛津人臉應用平臺接口項目( Project Oxford Face API)檢測圖片中的人物表情。

五大可識別圖片的人工智能技術

譬如,用牛津項目處理一張包含5個人的照片,識別照片中的臉以及每個人的表情——快樂,憤怒或惡心。

這項功能在新的高度,像人類一樣「理解」圖片質量。觀看他人照片時,人們關注的最重要特征就是個人或群體的情感狀況。

Pinterest Visual Search

Pinterest日前發布了全新的圖片搜索功能,它能幫助用戶發現更多的信息甚至幫助購買他們在固定照片里看到的產品。

首先,在 Pinterest的圖片中選中任一物體(來回拖動一個盒狀標識)。然后,搜索工具會找到具有相似圖案和顏色的相似物,系統會將最匹配的結果鏈接到購買按鈕上,點擊這里就能購買該產品。

這個功能是以伯克利視覺和學習中心(Berkeley Vision and Learning Center)的深度學習人工智能為基礎的。

這種照片人工智能應用可以說是萬維網照片的雛形,在這個萬維網中,每張圖片中的每個物體都與等同物或者相似物、相關物彼此關聯。

CloudSight

一家名為CamFind的圖片識別和視覺搜索公司,今年推出了一個「云視覺」(CloudSight)的公共應用平臺接口。

五大可識別圖片的人工智能技術

這個API支持開發者使用CamFind的人工智能分析圖片內容。這樣的掃描大多數情況下具有高度特定性,比如,能識別汽車的制造和模型,或者狗的品種以及食品的具體類型。一旦分析出圖片中的物品,開發者就可以使用這些信息來獲取網絡上的文字信息。

Deepomatic

Deepomatic開發了一種服務型軟件智能搜索引擎,它能識別圖片中各種各樣的數據。Deepomatic熱衷時尚。它不僅匹配顏色,圖案和其他數據,還能識別圖片中的物品,并將它與一個全面的時尚產品數據庫進行匹配。

五大可識別圖片的人工智能技術

Deepomatic網站聲稱,其技術模擬了人類大腦接收視覺信息的方式并用這種方式來理解各種概念。

遠大前景

每當想到這樣一個令人驚喜的新世界:能夠理解照片內容的人工智能將無處不在,具有強大擴展潛力且唾手可得時,這些無限可能性就會令人嘆為觀止。

而且,這僅僅是一個開始。在絕大多數情況下,這項技術幾乎都能通過API,開源程序或服務化處理得以應用實現,因此,我們已經站在了未來世界的入口:圖像AI將和網絡搜索一樣普及,成為這個世界的一個基本特征。為了真正模擬人工智能,計算機必須有視覺,現在它們有了。

機器之心編譯出品,參與成員:Sane、微胖

來自: http://www.almosthuman.cn/2015/11/22/01e3/

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!