微軟認知服務:人工智能的技術拼圖

近日,在B uild 2016 微軟開發者大會上,微軟發布了最新的智能服務: ( Microsoft Cognitive Services )。該服務集合了多種智能 API 以及知識 API 。借助這些 API ,開發者可以開發出更智能、更有吸引力的產品。微軟認知服務集合了多種來自 Bing 、 “ 微軟牛津計劃 ” 等項目的智能 API 。應用了這些 API 的系統能看、能聽、能說話,并且能理解和解讀我們通過自然交流所傳達的需求。同時,服務中所包含的知識 API 可以通過強大的互聯網來助力廣大開發者。
借助微軟認知服務,開發者們就算沒有人工智能的知識背景也能輕松開發出屬于自己的智能應用。目前這套認知服務包括視覺、語音、語言、知識和搜索五大類 共二十一項 API 。在此基礎上該服務還會持續增加新的 API ,并不斷更新現有的 API 。
微軟 CEO 薩提亞 · 納德拉表示 :“ 微軟希望讓每一名開發者都能夠構建商業機器人應用,并在應用中運用上人工智能技術。通過微軟認知服務,你可以在你開發的應用中運用語音識別、語言識別、計算機視覺等多種類的人工智能技術,讓它具備豐富的機器學習能力。希望大家能夠感受到微軟認知服務的豐富多樣。未來的一切可能,取決于每一位開發者的想象。 ”

五 大類 API 全知道

在 Build 2016 微軟開發者大會上,一段關于微軟認知服務的 視頻 作為開場演講的壓軸感動了許多人。這段視頻講述的是微軟的一位盲人軟件工程師和他們的團隊一同合作,借用微軟認知服務開發出幫助盲人看世界的應用: Seeing AI 。這段視頻除了給大家帶來了滿滿的感動之余,還讓大家意識到,人工智能真的正在日益改善著人們的生活。
而這些看似簡單且意義重大的應用背后是無數人工智能研究者們數十年積累的成果,這其中的每一環都如此重要。在微軟認知服務(或微軟牛津計劃)發布之前,憑借個人的力量想要開發出功能多樣的人工智能應用幾乎是天方夜譚。如今,借助微軟認知服務中的各類智能 API ,開發人員可以將自己“幻想”的炫酷智能應用變成現實。
為了讓開發者們更好的理解這一套認知服務是如何運作的,微軟研究院的研究員們還利用工作之余開發了各種各樣有趣的應用。除了上文提到的富有人文關懷的幫助視障人士看世界的 Seeing AI ,此前研究員們開發的整蠱鬧鐘應用 Mimicker Alarm 也是其中一個很好的范例。

這項由微軟車庫推出的鬧鐘應用 Mimicker Alarm 讓你必須完成其中一項“醒腦任務”才能關閉鬧鈴。 1. 拍張帶有特定表情的自拍,如開心、憤怒; 2. 拍到某種顏色,如紅色、綠色; 3. 說段繞口令。聰明的你已經看出來了,這三項“醒腦任務”則對應了微軟認知服務的三種不同功能的 API ,分別是感情識別 API、 計算機視覺 API 和語音識別 API 。
說到這里,你肯定迫不及待地想知道這五大類 API 都包括什么了吧!那就讓小編來帶你解密:
?視覺類API
視覺類 :計算機視覺 API ,情感識別 API ,人臉識別 API ,視頻檢測 API 。
在本次更新中,視覺類 API 已支持 2K+ 的標簽量(此前僅能支持 80+ ),從而能夠識別出圖像中更多的物體,人類和動作。此外,視覺類 API 還能夠實現用自然語言描述圖像內容并適用于更多使用場景,如進行圖像搜索,或是幫助視障人士看世界。

語音類 :自定義智能語音識別服務 API ,聲紋識別 API ,語音識別 API 。
在此次更新中,語音類 API 提供了對 JavaScript 的支持。語音識別和語音合成的準確性更是得到了顯著提高,且目前已經支持 25 種語言,而這一數字今后還會繼續增加。

語言類 :必應拼寫檢查 API ,語言理解智能服務 API ,語言分析 API ,文本分析 API ,網絡及語言模型 API 。
語言類 API 新增了語言分析 API 、文本分析 API 等多個 API 。基于此,開發者們可以構建語言模型,進行文本分析等定制多種智能功能。
?知識類API
知識類 :學術知識 API ,實體鏈接智能服務,知識探索服務,推薦 API 。
知識類 API 是此次微軟認知服務全新推出的 API ,里面包含的內容十分豐富,例如來源于微軟學術知識圖譜中的學術知識 API ,包括了論文、期刊和作者之間的多樣關系。推薦 API 和知識探索服務也都是基于此前微軟研究院在眾多會議和期刊上的論文積累而形成。

搜索類 :必應自動推薦 API ,必應圖片搜索 API ,必應新聞搜索 API ,必應視頻搜索 API ,必應網頁搜索 API 。
搜索類 API 也是本次微軟認知服務全新推出的 API ,它整合了來自于必應團隊的多個服務。開發者們可以輕松將必應搜索中的多種搜索知識和功能應用在自己的智能應用上。
微軟認知服務:微軟亞洲研究院技術解密
微軟認知服務來源于微軟研究院各個部門之間的通力合作。如果說未來的人工智能是一個巨幅的拼圖,那么人工智能各種各樣的功能就像這個巨幅拼圖中的各個拼圖模塊。微軟全世界各個研究院 / 實驗室的研究員和工程師們就像在一起玩一個巨型的拼圖游戲,他們分別負責各自的拼圖模塊,而微軟認知服務則將這些模塊整合在一起,力求為開發者和用戶們構造一個日益完善的人工智能技術平臺。
在這個巨幅拼圖中,微軟亞洲研究院研究員的參與十分重要。在有五大類、二十一項 API 的微軟認知服務中,計算機視覺 API 、人臉識別 API 、視頻檢測 API 和這次最新加入的實體鏈接智能服務均由微軟亞洲研究院的研究團隊獨立完成。

基于微軟亞洲研究院視覺計算組在 2015 年 12 月以驚人的 152 層深層神經網絡技術奪得了圖像識別領域兩大重要獎項—— ImageNet 圖像識別挑戰賽 和微軟常見物體圖像識別挑戰賽( MS COCO, Microsoft Common Objects inContext )主要賽目的雙料冠軍,使計算機圖像識別的錯誤率降至 3.57% (人類識別的錯誤率為 5.1% ),微軟認知服務中的視覺類 API 不僅大大提升了圖像識別的種類(從 80+ 至 2K+ ),更是完善了圖像描述、人臉檢測、人臉驗證、相似人臉匹配等多項功能。

而視頻檢測 API 則是微軟亞洲研究院網絡多媒體組、多媒體搜索與挖掘組以及視覺計算組通力合作的成果。 來自中國的研究團隊締造了世界范圍內首個擁有大規模云服務支持的智能視頻分析處理 API 。借助視頻檢測 API ,開發人員可以實現自動編輯、分析視頻,包括視頻穩定處理、人臉檢測及追蹤和運動檢測。此外,視頻檢測A PI 還額外提供企業級視頻分析供企業級用戶使用。
?實體鏈接智能服務
實體鏈接智能服務是此次微軟認知服務最新發布的服務之一,微軟亞洲研究院的知識計算組和創新工程組為該項服務提供了技術支持。該服務目前包括文本中的實體識別( Entity Recognition )和實體消歧( Entity Disambiguation )。當你將一段文本上傳之后,實體鏈接智能服務能夠將文本中的實體(甚至是不同描述的同一實體)識別出來,并給出對應的維基百科頁面鏈接。
實體鏈接智能服務:鏈接智能

擁有人類的各項感官功能是人工智能的一種表現,但深層的知識和更高層次的綜合認知是讓人工智能真正智能的核心。在此次發布的微軟認知服務中,知識類 API 就屬于更高層次的綜合認知能力,而其中的實體鏈接智能服務則是知識類 API 中的重要一環。
幾乎沒有人能夠真正說出人腦的運作方式。從嬰孩時期我們學到的第一個概念起,隨著年齡的逐步增長、認知水平的逐漸提升,人類似乎自然的將一個個知識點鏈接在一起,將一個又一個的概念串聯起來,構建成人類認知世界的知識網絡。人類從“蘋果”這個詞可以很容易地聯想出水果、植物,也能夠聯想出一家科技公司,而當我們在這個詞上加一個簡單的限定語,如“甜甜的蘋果”,我們就能很快將這個蘋果具體所指的是什么從多個意象中挑選出來。
那么如何為計算機構建這樣的知識網絡呢?微軟亞洲研究院的研究員們選擇了文本這一相對簡單、快捷且數據量巨大的形式。如何在文本內迅速找出文本中的實體,并理清實體和實體之間的關系?其實,這些問題的本質是自然語言處理問題的基本任務。
?實體鏈接智能服務
在實體鏈接智能服務背后有著四大技術難點。首先是,計算機如何知道一個實體的不同表達方式(同義詞問題),即計算機如何將文本中所提到的同一個實體的不同表達方式全部識別出來,例如 NBA 、 National Basketball Association 、美國職業籃球聯賽這三者其實說的是同一件事情。第二點是如何讓計算機知道同一種表達方式可以代表不同的實體(多義詞問題),例如在維基百科里,一個名詞下面可能有多個不同的意向,我們如何找出一條文本中的實體對應的是哪一個具體的意象呢?蘋果這個詞, 可以 ,或者意味著 ,還可以是 。第三點是計算機如何認得文本中的一組字串可能表達的實體。例如“微軟發布了 Surface Book ”這句話中,計算機需識別的實體應該是“ Surface Book ”而不是“ Surface ”。最后一點,則是計算機如何對他不知道的實體做出識別。例如,“今天早上街角新開的大象餐廳”這句中,“大象”很顯然不是人們熟知的大象等動物意象,在這里大象餐廳是今天早上才開的,所以計算機發現這個實體是它不知道的,所以不予標注。
當上述問題被微軟的科學家們逐個擊破后,接下來的問題就要交給開發者們了:我們能借助實體鏈接智能服務開發怎樣的智能應用呢?
例如門戶網站可以利用該技術自動為網站新聞上的實體關鍵詞提供相關鏈接和推薦閱讀。而企業用戶將這一技術與公司數據庫相匹配時,則能為企業內部的文檔輕松提供鏈接與指南。當然,這個技術還可以延伸出更多定制化的功能,例如在聊天軟件中,當你與朋友聊天時輸入“要不要一起去看電影”,系統可以自動識別出“看電影”這一實體,然后為你推薦周邊的電影院和電影,等等。目前,這一技術已在 BingSnap 中成功應用,它會根據你近期輸入的文本自動推薦你可能感興趣的相關新聞及鏈接。
微軟亞洲研究院首席研究員林欽佑博士表示:“我們希望有了實體鏈接智能服務的幫助,開發者們能夠開發出各種各樣的相關應用。開發者們的使用對我們的研究來說就是一種極佳的反饋,當基礎研究與上層應用相輔相成,才能夠共同推進人工智能技術的發展。“
所以,開發智能應用,你準備好了嗎?
相關閱讀:
Seeing AI:計算機視覺十年磨一劍,打造盲人的“瑞士軍刀”
刷新神經網絡新深度:ImageNet計算機視覺挑戰賽微軟中國研究員奪冠

歡迎關注
微軟亞洲研究院官方網站:http://www.msra.cn
微軟亞洲研究院人人網主頁:http://page.renren.com/600674137
微軟亞洲研究院微博:http://t.sina.com.cn/msra
微軟亞洲研究院微信:搜索“微軟研究院“或掃描下方二維碼:

來自: http://blog.sina.com.cn/s/blog_4caedc7a0102wa1u.html