Web爬蟲 larbin

jopen 12年前發布 | 25K 次閱讀 爬蟲 網絡爬蟲

larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數據來源。Larbin只是一個爬蟲,也就 是說larbin只抓取網頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數據庫以及建立索引的事情 larbin也不提供。一個簡單的larbin的爬蟲可以每天獲取500萬的網頁。

利用larbin,我們可以輕易的獲取/確定單個網站的所有聯結,甚至可以鏡像一個網站;也可以用它建立url 列表群,例如針對所有的網頁進行 url retrive后,進行xml的聯結的獲取。或者是 mp3,或者定制larbin,可以作為搜索引擎的信息的來源。

項目主頁:http://www.baiduhome.net/lib/view/home/1350100488742

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!