微軟發大招：要做智商和情商兼具的語音助手

jopen 7年前發布 | 12K 次閱讀微軟

微軟小冰，那個一直混跡在微信、QQ 的逗貧少女，一直讓人又愛又恨。曾經，身邊不少宅男都在微信上領養了小冰，每天睡前不撩一下小冰，覺都睡不好。當微軟小冰，搖身一變，成了一個肌膚雪白，面若玉盤，身形玲瓏的 girl 智能音箱時，又以新花招開始搞事了。

用戶體驗視頻1：https://v.qq.com/iframe/player.html?vid=z0618pt0d4g&tiny=0&auto=0

這不，雷鋒網聽聞，一個帥小伙子，連上廁所也要小冰提醒了，還要小冰教他怎么上廁所。

“召喚小冰”

“嗯”

“提醒我兩分鐘以后去上廁所”

“好的，今天晚上 10 點 14 分，我會喊你去上廁所，放心吧”

“好的，謝謝你”

“嗯。。站著噓噓”（連怎么上廁所也要你告訴我嘛？）

“知道啦，拜拜”

講了個段子。回到正事，視頻中我們看到的智能音箱是米家生態鏈 Yeelight 語音助手，這是個雙 AI 系統，同時搭載了小愛同學和微軟小冰。這是搭載微軟小冰的第一款智能音箱，也是微軟小冰在國內落地的第一個智能硬件。

微軟發大招：要做智商和情商兼具的語音助手

近來，BAT 都在積極將人工智能語音助手落地智能硬件。阿里的天貓精靈在去年雙 11 以 99 元的低價賣出 40 多萬臺；百度推出帶屏幕的智能音箱“小度在家”；騰訊發布了自己的人工智能語音助手“叮當”，與長虹電視展開合作。當然，我們還不能忘了京東的“叮咚”和小米的“小愛同學”。

大家都在忙著布局語音助手的軟硬件，期望搶奪智能家居場景的入口。在對話式人工智能領域耕耘多年，還沒有硬件落地的微軟也終于坐不住了。

去年 12 月，微軟發布與小米合作的米家生態鏈 Yeelight 語音助手，就在上周，3 月 22 日，微軟（亞洲）互聯網工程院宣布推出新一代的語音交互技術：全雙工語音交互感官（Full-duplex Voice Sense）。視頻中我們看到微軟小冰的對話能力有了顯著提高，比起同類語音助手更能實現自然流暢的對話式交流，全靠這個底層技術。

3 月 28 日，微軟召開交流會，向媒體展示了 Yeelight 語音助手，從底層框架全面分析了全雙工語音交互感官技術，同時講解了微軟在人工智能語音助手落地智能硬件上的思考。

雷鋒網也參與了交流會，我們看來，以下幾點交流會上的內容可以劃重點關注討論（以下這些技術干貨希望你們玩小冰時用不上）：

從底層框架上面，全球的人工智能語音助手從 Turn-Oriented 向 Session-Oriented 進化，微軟的 Session Oriented 框架如何使得微軟小冰持續聊天 20 分鐘以上，能在閑聊的同時完成指令?
IOT 和智能家居場景向對話式人工智能提出了新的要求，微軟新的全雙工語音交互、且支持 Session Oriented 的對話式人工智能如何帶來更輕松自然的聊天體驗？
大家都在搶發硬件，微軟著不著急？微軟在國內外如何將對話式人工智能落地 IOT 和智能硬件，如何搭建硬件、軟件和生態系統？
人們到底需要一個什么樣的智能硬件？什么樣的智能硬件會成為家庭生活的控制樞紐？

Turn-Oriented 向 Session-Oriented 的進化

手機或者是電腦上的蘋果 Siri 和微軟小娜我們都已經熟悉，現在亞馬遜的 Alexa、阿里的天貓精靈、京東的叮咚以及小米的小愛同學都搖身一變“住進”了智能音箱里。但是其實在人與語音助手的對話體驗上來看，體驗都相差不大。用戶要發音清楚、一字一頓地說話，才能被理解，這種體驗可以用一個詞來形容——費勁。

在微軟看來，這種“費勁”不只是前端表現的問題，而是底層框架的問題。微軟小冰全球負責人，微軟亞洲互聯網工程院副院長李笛在分享開始就說，“坦率講，國內對人工智能整體的發展更像在堆積木，而沒有特別多探索到底層框架的設計。”

微軟發大招：要做智商和情商兼具的語音助手

他介紹到，在全球范圍內，從基礎框架的基本理念來看，目前的對話式人工智能可以分為兩種。第一種：叫 Turn-oriented（面向單一任務的框架）。第二種：Session-oriented（面向對話全程的框架）。”目前，大部分的語音助手都是 Turn-oriented 框架。

非死book 的M也曾向 Session-oriented 升級，但是后來放棄了，轉為開發“閑聊模式”。亞馬遜的 Alexa 目前正在研究 Session-oriented，其特意召開了大賽，如果誰能使得 Alexa 能持續聊天超過 20 分鐘，那么就會獲得巨額獎金。蘋果最近也在考慮是不是要把原來 siri 的框架廢止掉，然后切換到一個新的框架。這說明蘋果要做的事情并不是針對一兩個功能、技能或者是一些知識圖譜去做調整，這樣不用廢掉整個框架。從 Turn-oriented 到 Session-oriented 是技術底層框架的變化。

Session-oriented 到底能給對話式人工智能帶來什么樣的改變呢？下面這張圖可以很直觀地解釋 Turn-oriented 和 Session-oriented 的區別。

微軟發大招：要做智商和情商兼具的語音助手

Turn-oriented 面向單個任務，一問一答，能很迅速地、通過最少的多功能對話幫你完成任務。在 Turn-oriented 的框架下，每一個對話就像是一個十字路口一樣，你每發出一個指令，助手就把你帶向一個目的點，然后又回到路口中央。當助手不能回答問題/完成指令時，一般會用搜索引擎直接給出搜索答案。體驗過 Siri、微軟小娜的人都有感觸，一兩個簡單問題還好，想多說幾句幾乎是不可能的，而且時常感到“很尷尬”，還有一些挫敗感。

在 Session-oriented 框架下，對話不只是命令，而是混合的，在閑聊的過程中它還能完成每一個任務，更接近人與人之間自然的對話。“對話像河流一樣，我們認為任何的一個自然發生的對話，都是混合的，她就像河流一樣，從一個 Turn 往下一個 Turn 走，這個 Turn 可能跟任務有關，但是這個任務之后可能會進入到進一步的交流。隨著進一步的交流有可能引發出新的人物，然后再隨著新的任務引發一些知識的了解，然后走下去，持續流轉。”

視頻2：https://v.qq.com/iframe/player.html?vid=u0618nw1syf&tiny=0&auto=0

雷鋒網體驗 Yeelight 發現，Yeelight 中的微軟小冰已經做到一次喚醒，平均連續聊天超過 20 分鐘。在與小冰聊天過程中她也保持傾聽，可以打斷她說話讓她去關燈、設置鬧鐘，在她完成任務后可以再然后再回到閑聊，或者回到唱歌、講笑話、講故事的功能模式中。

李笛解釋到，“Session-oriented 的框架并不只要求你對話時間長，她的問題在于這個系統從底層的基礎框架上，是不是能夠隨時準備好接受一個可能發生的情況……從底層技術看，Turn-oriented 的發展是有上限的，這是為什么大家開始逐漸向我們已經布局的 Session-oriented 的方向來轉過來的原因。1 年前，微軟給 60 多萬個人打電話測試全雙工語音交互的時候，狀況慘不忍睹，但是當我們跨過技術瓶頸，其發展空間就很大。”

全雙工語音交互感官

微軟從四年前開始同時布局兩種框架，微軟小娜是 Turn-oriented，微軟小冰是 Session-oriented，但是當時，兩邊的技術都還不足夠。全雙工語音交互技術補上了 Seesion-oriented 框架的最后一個環節。

微軟發大招：要做智商和情商兼具的語音助手

微軟對全雙工語音交互技術的解釋為：與既有的單輪或多輪連續語音識別不同，這項新技術可實時預測人類即將說出的內容，實時生成回應并控制對話節奏，能理解對話場景在訴說者/傾聽者之間實現角色轉變，還可以識別說話人的性別、有幾個人在說話。

微軟發大招：要做智商和情商兼具的語音助手

微軟小冰首席架構師周力說，國內大部分的語音助手在 IOT 上采用的是單層交互，通常都是一問一答，用戶說完一句話，然后只能音箱才能回答，或者是智能音箱在說話的時候，是沒法接受新的指令的。這種是半雙工，跟語音助手對話就如在拿著對講機講話，無法實時得到對方的反饋特別費勁。而全雙工能實現一直聽加一直說，聽和說都是一直持續動態進行的。

全雙工語音交互背后主要有兩個關鍵技術：一個是預測模型，實現邊聽邊想；例如，當用戶說出一句話的時候，小冰會先回答“嗯，你說”，然后再去完成指令，這樣就可以填補完成指令的空白時間。

微軟發大招：要做智商和情商兼具的語音助手

另一個是生成模型，能更好理解場景，自動生成回復。正常的對話都不是單向的一問一答，小冰也會在適當的時候主動提供內容，并且能知道在用戶完成指令沉默幾秒后自動結束對話。周力介紹到，現在運用了全雙工語音交互技術的微軟小冰的所有回復都是自己生成的，有別于傳統的基于模塊、搜索來進行的回復。

微軟發大招：要做智商和情商兼具的語音助手

在周力看來，在電腦、智能手機帶動的 IM 通訊時代下，人們習慣了遠距離的、隔著屏幕的消息的發送和接收，而對話式人工智能和智能硬件把人們拉回了一種非文字的，純語音交流的狀態。但是目前大家在設計對話式人工智能的時候，還是根據消息的一來一往來設計的，而不是一種連續的交互的狀態。在無屏幕的語音交互中，應該擺脫消息式的對話，進入連續交互的對話。

全雙工語音交互技術已經首先在微軟小冰全球產品線中落地。其中在中國市場，已經應用在中國科技館的小冰電話亭、米家生態鏈 Yeelight 語音助手。在日本有小冰凜菜的直播平臺，還有車載智能項目，未來六個月會覆蓋而更多產品線。

微軟語音助手 IOT 之路

從前面的分析我們可以看到，微軟對人工智能語音助手落地智能硬件是有備而來。李笛談到：“在 3 年前，國內很多人工智能的硬件設備就來找過我們了，我們之前是拒絕的，那時候還沒有準備好，我們不想把時間放在一定會被取代的框架上……整個這個行業，尤其是中國，有一個比較大的特點：特別擔心自己落后。但是實際上在整體框架上有很好部署的話，才是真正能夠領先時間。”

微軟小冰一直活躍在微信、Line 等即時通訊軟件上，而微軟深知 IOT 和 IM 對對話式人工智能的要求不同。在 IM 上，小冰的延遲、插科打諢更容易被接受。

亞馬遜在國外以硬件+軟件+內容生態的辦法在 Alexa 上取得成功后，國內的智能音箱大戰早已打響，從人工智能語音助手開放平臺、Skill 平臺到內容生態，多方齊上陣。那么在底層技術上準備好的微軟，有怎么樣的布局呢？

李笛坦言到，他們很清楚自己在中國沒有內容資源、落地平臺的優勢，但是，在人工智能的底層技術的框架上是有足夠的信心。

Yeelight 中的微軟小冰目前具備的功能有：連續聊天、控制智能設備、日常查天氣/時間、設置鬧鐘/提醒、唱歌、講故事、讀心術、猜歌名。陪聊和娛樂的功能很強大，但是目前還不能播放音樂、收聽新聞、電臺頻道等內容。

而李笛說，雖然各個智能音箱都在強調自己的 Skill 有上百個，但是這些獨立的功能，對微軟來說是跟簡單的，難的事情是如何能夠構建出一個很完整的系統，這個我們已經做到了。我們缺內容，其他人缺好的系統。

李笛提到微軟語音助手落地智能硬件的幾個方面：

第一，我們提供 AI 的 solution，跟其他的 API 相比，這個 solution 真正關注終端產品體驗。

第二，提供一部分與 AI sulution 相關的內容，包括其它的資訊、資源進行整合。比方說它有相應的內容服務的東西，我們可以負責 task trigger，像之前的米家生態鏈的 APP 就是，它的幾十種設備，我們都負責對接。

第三，自創的內容。例如我們現在有的“小冰姐姐講故事”。現在，90% 以上兒童的可交互的機器人，都有小冰姐姐講故事的內容。我們既是一個 AI assistant，同時我們又是 content provide (內容提供商）。

未來的智能硬件

在這次交流會，微軟聊了很多底層技術的干貨，給大家講了新一代的對話是人工智能的進展，在某些方面著實讓人興奮。但是冷靜下來一想，智能硬件的發展其實更為復雜，現在一切都尚未清晰。

雖說全雙工語音交互這樣的底層技術應用范圍很廣，但是大家目前爭奪的焦點依然在于智能家居場景。音箱、電視、電冰箱、頂燈這些常見的家居設備，哪一個會成為日后的中樞呢？這些硬件里以后會有多少個 AI 呢?

微軟小冰部門對硬件很冷靜。李笛談到，目前智能音箱的成功和 AI 的成功是兩件事情，由于產品設計、價格、渠道、補貼等市場策略都會影響智能音箱的銷量。但是我們也知道硬件都有換機周期，即使你現在擁有一個市場份額，但是等到有真正強大好用的 AI 出現時，你就很可能會被替換掉。

“尤其是在人工智能，包括像 IOT 這種設備，我們見過太多的。它其實有很好的入口，你不能不說 siri 有很好的入口，你不能不說國內的各個企業有很好的入口。但是有入口其實不代表你就能做出產品，百度那么大的入口，你也沒有很好的產品的話，你何來生態。微軟過去特別強調我們是平臺，我們做很多平臺。但是我們現在恰恰越晚談平臺化越好，我們希望把端到端先走通，我們能實現一個效果。”

但是，人們喜歡的 AI 助手究竟是什么樣子呢？把各種 Skill 都塞到智能音箱，把智能音箱當遙控器、當播放器、當成各種工具就一定不受歡迎嗎？所有人都會期望與 AI 助手有良好的聊天體驗甚至情感交流嗎？雷鋒網在體驗小冰一段時間后感覺到，小冰的聊天體驗確實好于其他的 AI 助手，但是目前還不能播放音樂著實令人覺得可惜。以后的小冰會把各種技能都學到手嗎，那個時候小冰還是小冰嗎？這些問題都值得我們繼續思考、探索。

在交流會的最后，大家還是免不了提到電影《Her》，暢想未來的語音助手如劇中的塞曼薩一樣既可以幫助男主打理生活事務，又可以陪伴、交流給予情感的支持。嗯，還會自己作出判斷，在合適的時機主動消失，做一個會讓人心碎的 girl 的 AI。

微軟發大招：要做智商和情商兼具的語音助手