微軟和Google如何讓搜索引擎理解互聯網

openkk 13年前發布 | 6K 次閱讀搜索引擎

搜索引擎爬蟲抓取和索引了海量的網頁內容，但內容的意義則是一無所知，它們并不能像人類那樣區分同一個詞的不同含義。它們抓取的只是網頁中的單詞，而不是語義。從一開始，搜索引擎本質上是匹配文本字符串。

讓字符串和語義匹配起來是搜索引擎公司努力實現的方向，微軟和 Google 正更新其搜索引擎：微軟的 Satori 和 Google 的 Knowledge Graph 能提取出網頁中的非結構性數據，創造一個互聯網“名詞”——人、位置、物及彼此關系——的結構性數據庫。它們正部分實現雅虎研究院研究人員在 2009 年的一篇論文《A Web of Concepts》（PDF）中提出的設想，論文定義了創造真正語義 Web 的三大關鍵要素：信息提取，鏈接和分析。微軟和 Google 剛剛開始融入語義的力量：Satori 映射了 4 億多實體，而 Knowledge Graph 達到了 5 億，只是整個互聯網的滄海一粟。