微軟認知服務:人工智能人人皆享

jopen 7年前發布 | 13K 次閱讀 微軟

微軟認知服務:人工智能人人皆享

微軟實時語音翻譯 Skype Translator、必應搜索、微軟小娜(Cortana)人工智能虛擬助手,這些大家耳熟能詳的應用背后潛藏的對話翻譯技術、知識編纂和語義理解等技術,無一例外都來自于機器學習的神奇能力。而眼下,這種智能正越來越廣泛的進入更多第三方應用,成為人們日常生活中必不可少的環節。

在推進人工智能普及化的進程中,微軟認知服務扮演了重要角色。它由 25 款工具集合而成,讓毫無機器學習專業背景的開發人員也可在其應用中輕松添加諸如情緒識別、圖像識別和語音識別以及語言理解等智能的功能。

“微軟認知服務集微軟所有機器學習和人工智能之大成,通過易于使用的 API 將它們提供給開發人員,免去他們從無到有的自創技術之苦,”微軟雷德蒙研究院語音及對話組首席研究員 Mike Seltzer 說。“在大多數情況下,建立一個先進的機器學習模型需要巨大的時間、數據、計算投入和過硬的專業背景,”他解釋道。

以語音識別工具為例,Seltzer 和同事們花了十多年時間來研究算法,才使得微軟語音識別技術能夠在嘈雜環境中依然可以正常使用,并能應對特定用戶群體和情形下的術語、方言和口音。

近日,微軟發布了這項認知服務工具的公開預覽版。第三方應用程序開發人員已可通過自定義語音服務(Custom Speech Service)使用這項靈活的技術。

微軟表示,另外兩項認知服務工具——“內容審閱”(Content Moderator)和“必應語音 API”(Bing Speech API)將在下個月正式上線。“內容審閱”允許用戶隔離和審查圖片、文字或視頻等數據,以篩除不需要的資料(如可能令人不悅的語言或圖片等)。“必應語音 API”則可將音頻轉換為文本,理解內容意圖,并再將文本轉換回語音。

微軟認知服務功能十分強大,它可幫助開發人員將智能技術應用于圖片和視頻等視覺數據的處理上,企業及機構用戶則可以用它來強化各自的服務。例如,商務智能企業 Prism Skylabs 在其 Prism Vision 應用中加入了計算機視覺 API(Computer Vision API),以幫助組織機構搜索閉路電視和安防攝像頭所拍攝的內容,從而尋找特定的事件、物品和人員。

微軟人工智能及微軟研究事業部全球資深副總裁 Andrew Shuman 指出,整套認知服務工具集發端于微軟普及人工智能的愿景,旨在將微軟在人工智能和機器學習領域的專業知識廣泛地提供給開發社區,為最終用戶創造更加愉悅和強大的體驗。

微軟認知服務:人工智能人人皆享

“如今,軟件能夠觀察人類、聆聽、應答并了解周邊的物理世界,這堪稱一次重大突破,因為它使界面變得更加人性化、更自然、更易于理解,因此在很多不同場景中更具沖擊力,”Andrew 說。“即將到來的這個時代會從真正意義上以更有趣的方式強化和豐富計算機的能力,并惠及更廣泛的人群。”

新體驗、新故事

微軟認知服務都能給人們帶來哪些新體驗,激發哪些新創意呢?

以 Alexander Mejia 為例,在成長的過程中,他總是搶著嘗試有最先進圖形及技術創新的最新游戲,追逐音響和視覺效果更佳的時髦玩意兒以及將劇烈的身體動作轉化為屏幕上角色行動的新交互方式。

近年來,在擔任游戲行業創意總監的工作中,Mejia 意識到來自新體驗的勁道正在減退——計算能力的成倍提升并未帶來游戲興致的倍增。“接下來會怎樣?”他問道。“能夠帶來全新體驗、讓游戲玩家們尖叫的技術飛躍又是什么?”

這個問題催生了一次新一代虛擬現實技術的演示。他戴上頭盔,開啟了一次狂野的過山車之旅。腎上腺素奔涌的體驗又回來了!他說,這種體驗讓人震撼。

微軟認知服務:人工智能人人皆享

“在虛擬世界中,你會相信那些東西就是真的,”他說。“如果我們把一個人物放在你面前,你會做什么?你會試著與他交談嗎?”

這個想法后來發展成為一項商業計劃。Mejia 成立了自己的公司——Human Interact,并著手研發虛擬現實中的講故事體驗和技巧。該公司的成名作《星艦指揮官(Starship Commander)》可讓玩家在以超光速穿越時空的同時控制故事情節,并在每個回合中與各色虛擬人物交談。

為了實現真實而快節奏的動作,Mejia 和他的同事需要準確和響應敏捷的語音識別功能。“一定要做到這一點,任何人在任何時候說的任何話,【語音識別引擎】都要能夠理解,并且沿著腳本中正確的路徑運行,”他解釋道。他隨后補充說:“這,就是微軟認知服務的魔力。”

創建自定義語音模型,解鎖更多場景

現代語音識別技術依賴于機器學習統計模型,可借云計算和大數據之力,將聲音片段轉換為文本,構成口語內容的精確轉錄。

例如聲學模型,它是一種分類器,能將特定語言的音頻短片段標記為幾個音素或聲音單元。這些標簽與來自相鄰片段的標簽結合,就可以預測目標語言中將要說出的詞匯。預測過程由一部將每個單詞拆分成音素的目標語言字典作為索引。

同時,語言模型通過衡量目標語言中每個被預測單詞的常見性,對預測進一步精確細化。語音識別系統在處理發音類似的單詞時,更常見的單詞被選中的概率更高。這些模型還會考慮上下文,以便做出更準確的預測。Seltzer 解釋說:“如果前文是‘The player caught the(選手搶到了)’,那么‘ball(球)’被選中的可能性就要大于‘fall(掉落,與 ball 發音相近)’”。

微軟先進的語音識別引擎背后的聲學模型其實是深層神經網絡,這種分類器源于人類大腦模式識別理論的啟發。研究人員借助在云中運行的高級算法和數千小時的音頻數據,對該模型進行了訓練。

2016 年 10 月 8 日,微軟的對話語音識別技術在產業標準 Switchboard 語音識別基準測試中實現了詞錯率(word error rate, 簡稱 WER)低至 5.9% 的突破 ,創造了當時該領域內錯誤率的最低紀錄。這意味著微軟語音識別系統已經能夠像人一樣識別談話中的詞匯,極具里程碑式的意義。而這項標準化測試所采用的基準已被學術界和業界研究人員沿用了 20 多年,具有極強的權威性。

“現在,如果你把從未接受過嘈雜的工廠對話數據訓練的同樣一款系統放在真正的嘈雜工廠里,它是不可能出色的完成任務的,”Seltzer 說。“這就是微軟自定義語音服務(Custom Speech Service)大顯身手之處。”

微軟認知服務:人工智能人人皆享

該服務允許開發人員針對嘈雜工廠車間的聲音和工人們的術語,自定義聲學和語言模型。例如,可以訓練聲學模型在液壓設備和鉆床的轟鳴中識別語言;而語言模型則可加以更新,以便對工廠特有的術語(例如螺母、螺栓和汽車部件等)詞匯賦予優先權重。

究其根源,自定義語音服務利用一種算法將微軟現有的語音識別技術運用于第三方開發人員提供的數據。從已經通過大量數據進行過訓練的模型著手,所需的與特定應用相關的數據量就會大大減少。在開發人員自有數據不足的情況下,語音識別系統會重新恢復到已有模型上。

“基本的理念是,系統越專注,它們的表現就越好,”Seltzer 說:“自定義語音服務的任務就是讓用戶能夠使系統專注于自己真正在乎的數據上。”

屬于你的虛擬現實

Human Interact 公司的《星艦指揮官》的故事發生在一個科幻的世界里,其中不少單詞和地名都是開發者創造出來的。當 Mejia 用這些關鍵詞和短語訓練自定義語音服務時,他發現這套新系統的錯誤率只有構建早期原型的開源語音轉文本軟件的一半。

接著,Mejia 求助于微軟語言理解服務來解決另一個難題——理解玩家話語的意圖。“有很多不同的方式來表達‘開始行動’”,他解釋道。“比如,‘我們走、自動駕駛、帶我離開、超光速行進、啟動超級驅動’等,這些都是玩家在我們的游戲進行中會用到的表達方法,特別是在緊急時刻,因為這種時候你往往并沒有太多時間思考。”

目前已開放公共預覽的語言理解服務允許開發人員在機器學習模型中對分類器進行訓練,通過加載用戶可能脫口而出的事物類型子集,并標記這些話語的意圖,就可以理解自然語言的意圖。

位于埃及開羅的微軟先進技術實驗室主任 Hussein Salama 解釋道,這項服務在后端利用了十多年來有關如何借助有限數據集對分類器進行訓練的研究。Salama 目前正在領導這項服務的開發工作。

微軟認知服務:人工智能人人皆享

“人們通常需要機器學習領域的專家來幫助選擇正確的技術、提供正確的數據集、訓練分類器,然后對它們進行評估,”他說:“有了語言理解服務,我們簡化了這一步驟。只要提供一些語句和幾個帶有意圖的短語示例,語言理解服務就可以開始訓練可以精確理解此類意圖的模型。”

就《星艦指揮官》而言,這種自定義功能實現了無縫連接:從示例中學習如何從非訓練數據組成部分的自然語言命令中推斷出意圖。“這種理解從未訓練過事物的準確程度著實令人驚訝,”Mejia 說:“這就是人工智能。”

● 了解微軟認知服務全球版:

https://www.microsoft.com/cognitive-services

● 了解微軟認知服務中國版:

https://www.azure.cn/home/features/cognitive-services

來自: blog.sina.com.cn

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!