自然語言處理哪家強?
原文 http://www.36kr.com/p/219250.html
語音交互事關未來,國內外已經不少公司在搶蛋糕了,大公司收購、投資、合作不斷,就可見一斑。目前,基本上所有的巨頭都有涉足。
- 蘋果收購Siri、Novauris, 組建基于神經網絡算法的語音識別團隊
2014年7月,有消息稱,蘋果正在聯系多位語音識別技術的專家,正在招聘經理、小組負責人、研究員,很可能將成立一支強大的語音識別團隊,并最 終取代現在的 Siri 技術服務商 Nuance。過去幾年中,蘋果招聘了多名此前供職于 Nuance 的的高層次語音技術研究員,包括前研究副總裁拉里·吉利克 (Larry Gillick)、Siri 的項目經理貢納爾·艾弗曼(Gunnar Evermann)、微軟語音識別項目高管亞歷克斯·阿賽洛(Alex Acero)。
在2013年,蘋果收購了自動語音識別公司Novauris Technologies。Novauris是英國研究機構Dragon Systems旗下的附屬公司,以語音聽寫識別著稱,成立于2012年。當然,怎么能忘了最著名的那筆收購呢,2010 年 4 月, 以 1.5~2.5 億美元收購了 Siri 。
- Google收購多項語音識別技術專利 、SayNow 、Phonetic Arts
Google在2014年收購了SR Tech Group 的多項語音識別相關的專利,其中包括“ 搜索引擎語音界面” 和“ 修改、更新語音識別項目系統”的專利。
Google 一直致力于投資語音搜索技術,以期與蘋果公司的 Siri 展開競爭。2011 年, Google收購語音通信技術公司SayNow 和語音合成技術Phonetic Arts。 其中,SayNow創建于2005年,可以把語音通信、點對點對話、以及群組通話和 社交應用整合在一起,支持的設備包括 PC 瀏覽器、智能手機乃至座機。被收購時,有 1500 萬用戶,旗下產品包括 SayNow Phone,SayNow 廣播,Big Call 以及 Chit Chat 等。
- 非死book收購Wit.ai和Mobile Technologies
語音交互解決方案服務商 Wit.ai 要做的就是重寫互聯網的語音層,簡單地在第三方 App 中加入幾行代碼來為它生成一個語音交互界面,就能把語言轉化成可以操作的數據。正如移動支付公司 Stripe 通過幾行代碼就為網站解決了線上支付問題一樣。Wit.ai 稱,它比 Siri 更靈敏精確,不需要開發者先期投資,或訓練數據集,而且可以應用在移動應用程序 (iOS、Android 等平臺)、穿戴設備和機器人以及幾乎任何你可以想到的智能設備。被收購時,Wit.ai 成立才18 個月,吸引了 6000 多名開發者,創建的應用超過了數百個。此次收購有助于提高 非死book 整體對自然語言的理解能力。
除了Wit.ai,非死book還在2013年收購了語音識別公司Mobile Technologies。MT創建于2001年,在2009年推出了Jibbigo應用,允許用戶在25種語言中進行選擇,使用一種語言進行語音片段錄 制或文本輸入,然后將翻譯顯示在屏幕上,根據你選擇的語言大聲讀出來。
- Amazon收購語Yap、Evi、Ivona
2011年, Amazon收購語音識別公司Yap 。Yap成立于2006年,主要提供語音轉文本服務,代表應用是Yap語音郵件。利用 Yap 的技術亞馬遜建立自己的語音技術平臺,服務于亞馬遜的網上搜索和客戶服務等領域。
2012年,Amazon收購語音技術公司Evi。Evi是一家應該創業公司,原名True Knowledge,在獲得了Nuance語音識別技術的授權后,基于自主的自然語言搜索引擎開發了一款與蘋果Siri類似的應用。
2013年,Amazon收購語音技術公司Ivona Software。Ivona是一家波蘭公司,是Nuance的競爭對手,主要做文本語音轉換,被收購時支持17種語言44種聲音。
- 英特爾收購語音識別技術公司Indisys
2013年,英特爾收購了語音識別技術公司Indisys。這是一家西班牙公司,但自稱一直在做多語音。在計算語言學、人工智能、認知科學和機器學習領域有研究,不少西班牙公司都采購了他們家的技術。此外,他們還開發了與蘋果Siri相似的助手界面。
- 三星或收購語音識別軟件商Nuance
關于三星和Nuance的緋聞已經傳了段時間。Nuance 的語音識別技術在智能手機、電視和 GPS 導航設備上都有廣泛應用,比如蘋果的 Siri 就是用的它的技術;其他一些企業級市場也有需要用到語音識別的地方,比如醫院里的電子病歷業務,醫生直接口述就能生成電子病歷。2013年 9 月份時,Nuance 還同三星達成合作。
- 雅虎收購SkyPhrase,牽手Robin Labs
2013年12月,雅虎收購了自然語言處理技術初創公司SkyPhrase。Gmail 和 推ter 的相關技術支持就是 SkyPhrase 提供的,允許用戶跟機器說“人話”得到個性化的搜索結果。比如“NANA 發的帶圖微博”,或者“Jane 發給我的包含照片的電子郵件”——這樣復雜的信息 Siri 是理解不動的。SkyPhrase還開發了兩款應用,其中一款能讓用戶查看夢幻足球的比分統計數據,另一款應用與 Google Analytics 整合發揮作用。
為了推雅虎語音助手,雅虎還找到了合作伙伴Robin Labs,后者主要做自然語言識別和導航。除開發自己的私人助手的導航應用外,現在它還為客戶提供語音助手白標產品的開發。”也就是說,理論上講,每個應 用都可以添加一個特定的語音助手模塊。既然雅虎語音助手其實是Robin Labs開發的,那它會被收購么?
其實,除了這些大公司和被他們收購的小公司,還有幾家初創公司做的也挺有意思。比如,下面這兩家。
- 全球首個通過語音來識別情緒的公司Beyond Verbal
Beyond Verbal是一家以色列公司,成立于2012年,在情緒識別領域一直領先。Beyond Verbal系統創建的算法可以通過識別音域變化,從而分析出像憤怒、焦慮、幸福或滿足等情緒,心情、態度的細微差別也能被識別到。Beyond Verbal 的情緒識別系統可以分析出11個類別, 400 個復雜情緒的變量。
2013年1月,他們開發的情緒識別 app moodies 在 iOS 平臺發布;2014年 8 月,他們開發了 moodies 的安卓版。2013年5月,獲得了280萬美元融資;2013年7月,又獲得了100萬追加融資。2014年9月,又追加了330萬美元種子融資。
在2014年耶路撒冷召開的 TEDMEDLive上,就引入了 Beyond Verbal 的技術來對所有與會人員的情緒進行分析,進而總結整個會議的整體反饋情況。
英國的初創企業EI Technologies也是一家做語音情緒識別的公司,可以分析人聲的音調,監控用戶的情緒。之前從孵化器Wayra London和英國政府的Technology Strategy Board拿到了15萬英鎊的種子期融資。
目前系統可識別5種基本情緒:高興、悲傷、害怕、憤怒及無感情。識別的準確率約為70-80%左右,這個數字要高于人類60%的平均水平。而受過 訓練的心理學家的判斷準確率約為70%,從這些數據來看,EI的算法準確率已經非常可觀。其未來目標是進一步提高到80-90%。
通過識別并恰當響應語言內容和情緒來增強自然語言處理算法似乎是人工智能系統的下一步發展方向。《銀翼殺手》里面的復制人的致命缺陷正是缺乏“移 情(empathy)”能力。現在這三家公司的技術正幫助機器朝著具備“移情”能力邁出一小步—首先學會感受人類的情緒。不過這也是個龐大又復雜的工程。
PS:
對人工智能感興趣的可以點擊鏈接報名參加 1 月 31 日的 36氪 人工智能沙龍哦。對自然語言處理感興趣的童鞋也可以郵件和我交流(syq#36kr.com)
[ 36氪 原創文章,作者: 小石頭]