盛大創新院和搜狗研究員:自然語言處理的應用
6月 26 日消息,盛大創新院搜索主題院研究員賈文杰和搜狗自然語言處理助理研究員張帆今天做客第 165 期 IT 龍門陣,分享了關于自然語言處理的應用和難點。
盛大創新院搜索主題院研究員賈文杰:面向搜索的中文分詞系統
盛大創新院搜索主題院研究員賈文杰做了《面向搜索的中文分詞系統》的主題演講。他認為“無論是搜索還是推薦,做中文的互聯網智能化處理,分詞就是一個必不可少的步驟。”
分詞應用的地方第一個是搜索,使用分詞使得詞表大大擴大,基于詞做索引,后面的鏈條會大幅減少,倒排列表縮減會減少時間;第二個應用是上下文廣告,比如推薦系統,“不管是做閱讀、視頻還是圖片,或者是電商,基于內容相似度做推薦,不管是基于空間模型還是短本做推薦,第一步分詞。”
賈文杰介紹,中文分詞的難點第一個是切分歧義,對于語言單位有多種方法,第二個難點是未登錄詞,做分詞系統沒有的詞或者是沒有出現的詞。
基于此,中文分詞目前常見的算法包括無指導切分、基于詞典的機械分詞、基于語言模型的切分,基于字標注的切分。其中基于語言模型的方法是最常用的方法。
“做這樣的分詞系統有哪些核心工作要做呢?第一個,原子詞識別,一些簡單的命名實體,包括網址、時間、數字、日期,難點是規則整理,比如時間的表達非常多。第二個模塊命名實體識別,除了前面的命名實體,剩下的主要是人名、地名、機構名,基于正則表達式寫不出來,怎么來做?基于序列標注方法做,用一些方法把不在詞典的詞找出來。”
訓練語言模型需要收集分詞的語料庫,目前的語料庫有富士通和北京大學做的人民日報語料庫,賓州中文樹庫,臺北中研院的樹庫。
人民日報語料庫有 1400 萬詞,是最大語料庫,但是問題是缺少新詞,創立年限太久,表達方式語序發生了很大變化,還有規模仍然不夠大。
賈文杰介紹了盛大創新院推出的盛大云分詞,它的優點是是分詞結果較好,分詞更快、而且是活的分詞,分詞保持不斷更新,再者針對搜索進行了優化,最后還支持中英文之外的其他語言分詞。
搜狗自然語言處理助理研究員張帆:搜索查詢意圖識別
搜狗自然語言處理助理研究員張帆做了《搜索查詢意圖識別》的主題演講,他認為意圖識別是知道用戶想干什么,以便更好地滿足用戶需求。
現有的搜索引擎分為兩類:通用搜索引擎和垂直搜索引擎,兩種搜索引擎各有特點。通用搜索引擎抓取互聯網上一切有價值的東西、統一建立索引,以關鍵字匹配為基本檢索方式,以網頁 title 和 summary 為展現方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道為代表。
垂直搜索引擎以一定類別為主題,只抓取與主題相關的信息,更具主題特點有針對性的建立相應的索引檢索方式,篩選方式以及展現方式,以機票搜索、地圖搜索、購物搜索等為代表。
“通用搜索引擎的缺點是通用,不夠準確,垂直搜索引擎的缺點是用戶需要記住多個網站。有沒有辦法將二者結合?”張帆如此表示,“識別查詢詞對應的垂直搜索,并從中獲取結果嵌入到通用搜索引擎中,可以為用戶提供很好的體驗。”這也就是意圖識別用途。
意圖識別的難點包括:輸入不規范、意圖太多、意圖強度的區分、語料持續準確獲取、搜索結果的可靠性、時效性的問題。
張帆提出了進行意圖識別的幾個方法:
詞表窮舉法,最簡單直接的方法,通過詞表的直接匹配來獲取查詢意圖,它的實現方法是建立白名單系統、建立詞表擴展系統、建立詞表預處理系統,這種方法優點是簡單易實現,缺點是召回比較低,人工比例較高。
規則解析法,適用于一些查詢索然不集中淡非常符合規則的類別,通過規則解析查詢來做一同識別和關鍵信息提取的。比如匯率查詢、計算器、度量衡等。它的優點是信息提取準確,不足是只適用于規則性較強的類別。
統計模型分類法,一般有兩種分類,一種是基于查詢詞本身的分類,另一種是基于查詢詞結果進行分類,這種方法適用于一些查詢較為分散,且規則不明確的類別。這是最常用的方法,覆蓋面最大的方法。這種方法的不足是實現較為復雜,數據獲取、更新困難。
張帆介紹稱,除此之外,還有一些特殊的意圖識別方法,比如微博類意圖識別,實現方法是對搜索結果進行時效性判斷。
張帆認為,意圖識別未來的發展的幾個方向是無類別概念的意圖識別,個性化意圖識別,精準意圖識別以及語音應用的意圖識別。