騰訊AI Lab斬獲知識圖譜頂級賽事KBP 2017世界冠軍

jopen 7年前發布 | 21K 次閱讀 知識圖譜 騰訊AI lab

美國國家標準與技術研究院(NIST)主辦的 2017 年國際知識圖譜構建大賽(Knowledge Base Population,簡稱 KBP)結果近日揭曉,騰訊 AI Lab 首次參賽,斬獲實體發現與鏈接(Entity Discovery and Linking Track,EDL)任務冠軍。KBP 大賽始辦于 2009 年,是國際上影響力最大、水平最高的知識圖譜領域賽事,此次奪冠體現了騰訊在知識圖譜、語義理解等技術領域的強勁技術實力。

騰訊AI Lab斬獲知識圖譜頂級賽事KBP 2017世界冠軍

實體發現與鏈接任務三語總分前十位排名表(各隊伍為匿名)

知識圖譜是試圖結構化人類知識的技術,一般通過描述實體屬性以及建立實體和實體之間的關系來實現。當前,自然語言處理的很多任務都需要知識圖譜的支持, 比如問答系統中的 query 語義理解。舉個例子,如果你查詢「86 版西游記主演有哪些?」,要完整理解這句話,第一步先理解「西游記」這個實體及其類別,這個任務叫實體發現,就是識別出「西游記」是一部電視劇。第二步要解決實體的歧義性,因為知識圖譜包含了各個版本的「西游記」,實體鏈接的任務就是要根據查詢里的上下文,例如這里的「86 版」,把「西游記」鏈向知識圖譜中正確的那一版「西游記」,也就是 1986 年上映的「西游記」。

頂級國際賽事展現技術構架

深度學習構建領先語義理解模型

實體發現與鏈接是 KBP 賽事的核心任務,需要從目標文本中識別出實體,并把它們鏈接到已有的知識庫上,具有很高的技術挑戰性,任務針對中文、英文、西班牙文三種語言,騰訊獲得三語實體發現與鏈接總分第一名,單語上的指標分別是中文和西班牙文兩項第一、英文第二。比賽歷來受到學術界和工業界的廣泛關注,本次任務共 24 支隊伍參加,包括 IBM、美國卡耐基梅隆大學和美國伊利諾伊大學香檳分校等國際一流科研機構,及阿里巴巴、北京郵電大學和浙江大學等國內知名企業及院校。

本次比賽中,騰訊 AI Lab 在目前業界領先的 EDL 架構中引入了篇章理解模型和關聯圖模型。篇章理解模型采用深度學習架構,通過大規模數據的訓練能夠更精準的理解篇章的語義;關聯圖模型是將整篇文章的所有重要信息一起建模到一個圖結構當中,整體求解以達到全局最優。

自建知識圖譜 TopBase

未來延伸到自然語言深度理解力

知識圖譜是自然語言處理領域的核心技術,目前騰訊 AI Lab 建設了一個名叫 TopBase 的知識圖譜,目前涵蓋 50 多個領域如人物、音樂、影視、體育、詩詞等,億級實體,10 億級三元組,并已廣泛應用到天天快報、微信看一看及微信搜索,和騰訊云小微等業務。

騰訊AI Lab斬獲知識圖譜頂級賽事KBP 2017世界冠軍

TopBase 知識示意圖

機器學習、計算機視覺、語音識別和自然語言處理是騰訊 AI Lab 的四大基礎研究方向,在此研究基礎上與騰訊業務與合作伙伴需求結合,落地到內容、游戲、社交和平臺型 AI 四大應用上。

知識圖譜所屬的自然語言處理(NLP)領域,騰訊 AI Lab 還著重于問答、對話、文本生成、自動摘要和機器翻譯方面的核心研究,并與語音識別和計算機視覺領域進行跨界應用,如同聲傳譯和圖片描述生成等技術。最終的目標是讓機器更好的理解并生成文字內容,提升理解、決策和創造力,最終能與人類通過自然語言進行交流。

來自: 騰訊科技

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!