Siri將改變什么?
Siri 絕不僅僅是一種精確的語音輸入方式,它將是一次人機互動新革命的序章。
在10月2日的蘋果產品發布會上,iPhone 4S 的技術升級幅度可謂令業界失望。然而,被蘋果定義為“私人語音助理”來做壓軸功能發布的 Siri 應用,仍然是抓足了人們的眼球。在很多“果粉”眼中,它被認為是替換掉 iPhone 4 的唯一理由。

在發布會上,蘋果宣稱 Siri 可以支持自然語言輸入與識別,用戶可“命令”手機讀短信、詢問天氣、設置鬧鐘等,并且可以搜尋餐廳、電影院等生活信息,甚至是直接訂位、訂票;另外其與 LBS 結合服務的能力也相當強悍,能夠依據用戶默認的居家地址或是所在位置來判斷、過濾搜尋的結果。
Siri 目前仍然是 beta 測試版,并且只支持英語、法語和德語。雖然互聯網上一系列折磨 Siri 的視頻端子曾出不窮,但被蘋果這樣的企業推出進行商用,已經意味著“語音識別”——這一已經不算新鮮的科技,進一步實現了人工智能化進而向“語義識別”又邁出了一大步,同時意味著第一款基于它的改變大眾生活的消費級產品已經誕生。
語義識別是人機交互的再一次里程碑,雖然數十年間它的研究進展僅限于對自然語義識別的精確度的提升,但它一直被視為是人類實現非接觸式控制機器的第一步。
巧合的是,進入信息時代以來,鍵盤(命令行)到鼠標(快捷鍵),鼠標到多點觸控——這兩次人機交互的里程碑式的革命都是由蘋果公司所引爆。如果此次 Siri 真的能夠如蘋果所說,在精確識別自然語義的基礎上,其智能化程度能夠達到替用戶精確分析、選擇而真正成為助手的地步,那么蘋果公司將再次激發人機交互的偉大革命。
語義識別的歷史
使機器識別語言是人類早已有之的科技幻想,并且早有實踐足跡。早在1920年,美國一家公司所出品的名為“Radio Rex”玩具狗便可以“聽從”主人的話而執行走或者停的任務。
不過在這之后相當長的時間里。這項科技的進展僅限于如何更多、更精確地識別各種口音,進而執行諸如文字顯示等十分簡單的任務。
1952年,貝爾實驗室的 Davis 等人成功研究出了世界上第一個能識別10個英文數字發音的實驗系統。大規模的語音識別研究是在進入了上個世紀70年代以后,在孤立詞和小詞匯量句子的識別方面取得了實質性的進展。
進入80年代以后,研究的重點逐漸轉向大詞匯量、非特定人連續語音識別。此時語音識別的研究思路也發生了重大變化,即由傳統的基于標準模板匹配的技術思路開始轉向基于統計模型 (HMM)的技術思路。此外,再次提出了將神經網絡技術引入語音識別問題的技術思路,亦即開始了跨學科的人工智能研究道路。
進入90年代以后,語音識別的研究并沒有什么重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展,諸如聽寫機等基于語音的信息輸入設備此時大量出現。
由僅限于定義為輸入法功能的語音識別,向包含后臺數據分析的語義識別轉型的關鍵推動力量,是美國的 DARPA (Defense Advanced Research Projects Agency)計劃。
顯然,語義識別技術蘊含著著人機互動的遠大前景,也因此擁有各方足夠高的評價和期許。但它幾十年來卻缺乏足夠的表現。而正是蘋果公司往日給社會帶來巨大變革的一系列消費級產品,使得當語義識別技術和蘋果公司聯系到一塊的時候,人們不得不重新給予其重大期盼。
實際上,蘋果公司對類似工作的開展也不可謂不早。早在1987年,蘋果就展開了類似的研究工作。如果你曾經讀過李開復的自傳《世界因你不同》,就可能會對在《今日美國》節目中,蘋果出品的實驗性語音識別設備 Casper“調戲”女主持的情節記憶猶新。
Siri 是從斯坦福大學的 SRI 國際人工智能中心(International Artificial Intelligence Center)剝離的一個項目,該研究中心隸屬于 DARPA 的 CALO 子項目。實際上,Siri 的聯合創始人兼工程副總裁 Adam Cheyer 正是 CALO 項目的首席架構師,而 CTO Tom Gruber 也是出身斯坦福大學的人工智能、語義網專家。同樣孵化于斯坦福 SRI 的還有知名的語音識別開發公司 Nuance。
2010年初,蘋果收購 Siri,收購價據稱是2億美元。
Siri 的無限可能
當蘋果剛剛收購 Siri 之時,人們評價它只是一個更好的語音識別工具。然而,事實并非如此。
多年以來,大眾所能接觸到的語音識別技術,每年都以緩慢的步伐進步著,不過這種進步的含義僅限于識別準確率,換句話說,它們僅是一種不斷提高準確率的輸入法。
實際上,在多年以前,IBM 的語音識別軟件在 PC 上就有不錯的識別率了,而微軟名為 Tellme 的項目也持續了多年。騰訊最新推出的 QQ2011 版開始支持語音輸入,而中國科大訊飛出品的“訊飛語音輸入法”更是 Android 設備用戶所追捧的熱門工具應用之一。
然而,即使達到100%的準確率,僅限于輸入法功用的語音識別也無人機互動的意義,它并不是革命性的。
而 Siri 所展示出的在準確語音識別的基礎之上,進行語義的智能分析判斷,并且實現系統功能和后代數據(包括個人偏好和歷史記錄)的調用,實現所答即所問與服務即所想——真正實現助理的功能,從識別,執行,再到互動之間的飛躍,這些才是 Siri 的革命性所在。
與谷歌的 Voice Actions 等相似應用不同,Siri 使用戶可以拋棄繁瑣的語法結構,甚至思維模式也可以混亂,它會結合上下文結構去分析判斷,它甚至能理解許多含義模糊或者引申的語義。
要做到這一點,搜狗 CEO 王小川認為需要五個方面的配合:一是對自然語言理解,歸納為“懂”;二是在人機交互的過程中,需要反問確認來降低誤差,這個過程稱為“問”;三是人機交互還需要根據上下文進行判斷和推測,這可以理解為“猜”;除此之外,整個軟件系統還需要具備持續的學習能力和良好的擴展能力。
雖然蘋果沒有公開 Siri 更多的技術細節,但是一些實用的例子已經體現出了 Siri 不僅僅是個語音識別的軟件。比如在一段 Siri 被蘋果并購前的演示視頻顯示,當用戶說“ I like a romantic place for Italian food near my office”(我想在辦公室附近找一個浪漫的意大利菜餐廳)。
Siri 則回答:“I am looking for a Italian restaurants which reviews say are romantic near your wok in San Jose(從大家評論的結果來看,在你公司附近最浪漫的餐廳在圣何塞)…”
這個回答說明 Siri 聽懂了 romantic 是個形容詞,知道 near my office 是個地方。并且,找到了以前存儲的用戶的工作地點。更關鍵的是,他知道怎么判斷一個餐館是否 romantic!——通過 Yelp.com 的食客評論。
Siri 的這種革命將會改變諸多既有格局,并且進一步解放科技力量。首先,從產品的科技屬性上說,Siri 將肩負起蘋果公司引爆第三次人機互動革命的重任。我們完全有理由想象:在鍵盤、軌跡球相繼在移動終端上消失之后,虛擬鍵盤也即將消失,甚至菜單功能項也一并會消失了。
其次,從產業格局上說,Siri 將會成為使蘋果公司繼續保持優勢的利器。目前,從 Android 4.0 和 Windows Phone 7(WP7)的芒果系統來看,谷歌和微軟在移動終端領域正在縮小與蘋果的距離,而蘋果的 iPad 2 和 iPhone 4S 卻相繼使“果粉”失望。這其實也是不可避免的,畢竟硬件的持續創新是有一定極限存在的。
此時,Siri 被蘋果所適時地祭出,有望再次提高 Android 和 WP7 設備和 iOS 設備進行競爭的門檻。谷歌的 Voice Actions 也是具有后臺功能調用的類似應用,然而,當硅谷編輯們打開 Voice Actions 時會說 “send a text to Mike”,而拿到 iPhone4S 時他們則會用“ I Love You”在測試 Siri 的強大功能。在這一點上來看,被用戶開心“調戲”的 Siri,其實已經領先其他的產品進入智能的階段。
Siri 的威力還將從谷歌的核心業務——搜索中搶奪地盤。比如,你可以通過吩咐 Siri 來打開 Yelp 的 Reviews 與進行 OpenTable 的預定,那還要 Google 搜索干什么?從這個意義上說,Siri 并不是社會化搜索引擎(比如 Google 收購的 aardvark),卻勝似社會化搜索引擎。
更為重要的是,Siri 將為蘋果帶來巨量的用戶數據。而這些數據是其他競爭對手所無法得到的。也正是基于此,對于蘋果公司來說,Siri 有望強化它的三個弱項——云計算、社交、家庭娛樂設備。
如果蘋果的10萬名開發人員在 Android 開發人員之前得到這些數據,Android 和 iOS 競爭的結局便可想而知。可以肯定的是,Siri 將不僅僅是一個應用程序,它同時也是一個自然用戶界面系統,它使得服務器端可以整合來自大量開放 API 的數據。甚至,由于占據用戶與數字設備和互聯網的第一觸點,一個“應用導航”甚至“Siri App Store” 也不是不可能出現——當你說:“我要看關于奧巴馬的新聞”,Siri 調用出的會是誰的新聞網站或者是新聞應用?這將是很有意思的事情。
在蘋果發布 Siri 之前,Siri 的聯合創始人 Norman Winarsky 在接接受媒體采訪時如此預言 Siri 的未來圖景:
“毫無疑問,蘋果的虛擬個人助理是開創性的,這是一個改變世界的事件。在技術方面,Siri 至少領先競爭對手2年,因為這不是個語音識別軟件,而是真正的、可商用的人工智能技術。”