Cortana 背后用到了哪些 Bing 技術?
微軟 Build 2014 宣布了個人數字助理 Cortana。相比蘋果 Siri 和 Google Now,微軟 Cortana 是晚來者,但在技術積累方面微軟早已有全盤計劃 – Cortana 是微軟 Bing 平臺和微軟研究院投入的重要成果,也不會局限于 Windows Phone 8.1(背后故事可以閱讀此文)。
在發布會上,微軟宣布 Cortana 由 Bing 驅動,至于具體用到了哪些技術,我們可以先來看看 3 個 Cortana 使用場景和 1 段 Cortana 解說視頻:
- 場景 1:我計劃前往西雅圖,航空公司給我發送了一封航班的確認郵件。
– Cortana 會把郵件中的這些關鍵詞(航班號、出發地、目的地、日期和時間等信息)識別為結構化數據
– 再通過 Bing 平臺識別為航班類別,返回到手機詢問我是否將其設置為航班提醒
– Bing 數據流處理系統會主動監控該航班的狀態
– 在登機前 2 小時,Cortana 給我發送提醒:航班狀態、交通路線、機場室內地圖
- 場景 2:我希望到家后提醒我倒垃圾。
– 我的語音被傳輸到云端,被語音識別系統轉換成文字
– 識別過程中通過深度神經網絡技術理解自然語言序列
– 文字被傳輸到推理系統來判斷用戶意圖,并生成“如果……就……”的條件規則
– 規則返回到手機后,Cortana 會根據位置提醒我的命令(由于之前的交互,Cortana 知道家的位置)
- 場景 3:我想知道明天上海是不是寒冷。
– 和場景 2 一樣,我的語言命令被識別為文字
– 自然語言處理系統會將“寒冷”關聯為天氣,并從 Bing 知識庫中查找上海的天氣信息
– 從天氣信息的數據源獲取明天的上海的天氣,返回到 Cortana 顯示
Cortana 背后極大地依賴 Bing 信息平臺的服務和數據,以及微軟研究院的技術研究,上述的任務都由一系列不同技術組合完成。Cortana 的設計理念是基于“最頂尖的機器學習和數據挖掘算法”,自然語言處理、語義分析、語音技術、Bing Satori 知識庫和自學習系統等都是其中的核心技術。
- 自然語言處理/語義分析技術
將自然語言文字處理為計算機系統可處理的信號,并加以分析、理解,從而理解用戶意圖。微軟自然語言計算組成立于 1998 年,專長于翻譯、輸入法、問答、社交文本挖掘、搜索引擎、口譯、手語翻譯等。
- 語音技術
將用戶的語音識別為文字,將文字合成為語音。微軟的語音技術研究始于 1993 年,大家熟知的 Tellme 是 07 年微軟花 10 億美元買下了語音識別技術公司。目前微軟 Bing 語音平臺整合于微軟各產品線:Windows 和 WP 操作系統、Kinect、車載系統等。
- 深度神經網絡技術
微軟研究院利用深度神經網絡(Deep Neural Network)技術,通過模擬人腦的自然語音模式來輔助語音識別,成果就是提高語音識別精度和速度。曾經的兩個演示:實時語音機器翻譯和 WP8 語音識別改進。
- 數據流處理技術
追蹤數億級別的實時事件信息,比如追蹤全球航班信息、交通流量/路況、新聞、賽事信息,從中匹配條件調用需要的信息推送給用戶。
- 用戶相關性信息技術
識別和用戶個體相關的位置、愛好、關注點、聯系人(Cortana 在 Notebook 中存儲用戶的個人興趣點和信息),并加入機器學習算法,不斷增強對用戶的了解,并改進數據挖掘的相關性。
- Bing 知識庫(代號 Satori)
Bing 知識庫是微軟必應 2012 年推出的“實體”數據庫,這里的實體是指真實世界中的人物、地點、事件等,Bing 存儲著這些實體的信息和關系,并在不斷增長索引量。目前我們可以在 Bing.com 右邊欄看到 Bing 知識庫的信息。
- 對話管理理解技術
負責人與機器上下文的對話,用戶可以分多次完成一個查詢,或者說是追加命令或問題,Cortana 同時會考慮整個對話的內容。
- Bing 可擴展性計算/數據平臺
并行處理用戶的數億各類查詢,包括上面提到的知識庫、數據流,信息的推送。
接下來,微軟的愿景是將 Cortana 擴展到更多平臺、更多領域的信息,更多人機交互方式 – 在現有的語音、文本之外,還有手勢、體感等。(參考來源 Ars Technica、TechNet、MSR)
<span id="shareA4" class="fl"> </span>