雅虎開源解析 HTML 頁面數據的 Web 爬取工具 Anthelion
Yahoo 宣布開源解析 HTML 頁面結構數據的 Web 爬取工具 Anthelion。
Web 爬行工具是 Yahoo 很重要的核心,甚至超過了其他應用: Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr 和 Tumblr。
上一年在上海的一次會議中,Yahoo 也詳細提到了 Anthelion:“Anthelion 最初專注于語義數據,使用標記語言嵌入到 HTML 頁面,比如 Microdata,Microformat 或者 RDFa。”這次會議還提到了爬取技術是如何實現的,為什么能提供更高數量的特定搜索查詢相關的結果。
Microdata 和 RDFa 是結構數據關于不同主題的語法格式,兼容 schema.org 詞匯(一個 Google,Yahoo 和 Bing 搜索引擎都在研究的項目) a project that the Google, Yahoo, and Bing search engines all work on.
Anthelion 的代碼現在以 Apache 開源授權協議托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代碼。
Anthelion 可以根據設定目標爬取特定頁面,比如,包括標記描述影片和至少兩個不同屬性(比如電影標題和演員)。
via venturebeat.com
</div> 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!