微軟和Google如何讓搜索引擎理解互聯網

openkk 12年前發布 | 6K 次閱讀 搜索引擎

搜索引擎爬蟲抓取和索引了海量的網頁內容,但內容的意義則是一無所知,它們并不能像人類那樣區分同一個詞的不同含義。它們抓取的只是網頁中的單詞,而不是語義。從一開始,搜索引擎本質上是匹配文本字符串。

     讓字符串和語義匹配起來是搜索引擎公司努力實現的方向,微軟和 Google 正更新其搜索引擎:微軟的 Satori 和 Google 的 Knowledge Graph 能提取出網頁中的非結構性數據,創造一個互聯網“名詞”——人、位置、物及彼此關系——的結構性數據庫。它們正部分實現雅虎研究院研究人員在 2009 年的一篇論文《A Web of Concepts》(PDF)中提出的設想,論文定義了創造真正語義 Web 的三大關鍵要素:信息提取,鏈接和分析。微軟和 Google 剛剛開始融入語義的力量:Satori 映射了 4 億多實體,而 Knowledge Graph 達到了 5 億,只是整個互聯網的滄海一粟。

來自: Solidot

 本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!