Web爬蟲 larbin

jopen 13年前發布 | 25K 次閱讀爬蟲網絡爬蟲

larbin是一種開源的網絡爬蟲/網絡蜘蛛，由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取，最后為搜索引擎提供廣泛的數據來源。Larbin只是一個爬蟲，也就是說larbin只抓取網頁，至于如何parse的事情則由用戶自己完成。另外，如何存儲到數據庫以及建立索引的事情 larbin也不提供。一個簡單的larbin的爬蟲可以每天獲取５００萬的網頁。

利用larbin，我們可以輕易的獲取/確定單個網站的所有聯結，甚至可以鏡像一個網站；也可以用它建立url 列表群，例如針對所有的網頁進行 url retrive后，進行xml的聯結的獲取。或者是 mp3，或者定制larbin，可以作為搜索引擎的信息的來源。

項目主頁：http://www.baiduhome.net/lib/view/home/1350100488742

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1350100488742.html

爬蟲網絡爬蟲

Web爬蟲 larbin

相關經驗

相關資訊

相關文檔

目錄