網絡爬蟲 - 開源文檔 - 第2頁

P7

　本文介紹如何用C#語言構造一個蜘蛛程序，它能夠把整個網站的內容下載到某個指定的目錄，程序的運行界面如圖一。你可以方便地利用本文提供的幾個核心類構造出自己的蜘蛛程序。

yyt1987 2011-10-28 621 0

P15

網絡蜘蛛即Web Spider，是一個很形象的名字。把互聯網比喻成一個蜘蛛網，那么Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁，從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站，那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。

dongjun 2011-10-23 6782 0

網絡爬蟲原理網絡爬蟲 Go

P23

本文由淺入深，詳細介紹了Heritrix在Eclipse中的配置、運行。最后對其進行擴展，介紹如何實現只抓取特定網站的頁面。通過本文，讀者可以了解Heritrix的相關特點以及在Eclipse中的配置運行，能夠從零開始構建特定站點的專有爬蟲，從而為網站增加全文檢索服務

sunhaiyang 2011-09-19 527 0

網絡爬蟲

P34

網絡蜘蛛即Web Spider，是一個很形象的名字。把互聯網比喻成一個蜘蛛網，那么Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁，從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站，那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。

lijinfei 2011-08-16 8529 0

網絡爬蟲

P10

完全基于java的技術。核心技術：XML解析，HTML解析，開源組件應用。

lijinfei 2011-08-16 725 0

網絡爬蟲

P17

zjameschen 2011-07-07 873 0

爬蟲網絡爬蟲 Apache HTTP HTML

P67

你知道百度、Google是如何獲取數以億計的網頁并且實時更新的嗎？你知道在搜索引擎領域人們常說的Spider是什么嗎？本章將全面介紹網絡爬蟲的方方面面。讀完之后，你將完全有能力自己寫一個網絡爬蟲，隨意抓取互聯網上任何感興趣的東西。既然百度、Google這些搜索引擎巨頭已經幫我們抓取了互聯網上的大部分信息，為什么還要自己寫爬蟲呢？因為深入整合信息的需求是廣泛存在的。在企業中，爬蟲抓取下來的信息可以作為數據倉庫多維展現的數據源，也可以作為數據挖掘的來源。甚至有人為了炒股，專門抓取股票信息。既然從美國中情局到普通老百姓都需要，那還等什么，讓我們快開始吧。網絡爬蟲的基本操作是抓取網頁。那么如何才能隨心所欲地獲得自己想要的頁面？這一節將從URL開始講起，然后告訴大家如何抓取網頁，并給出一個使用Java語言抓取網頁的例子。最后，要講一講抓取過程中的一個重要問題：如何處理HTTP狀態碼。

Wyh_D_Void 2011-05-23 1001 0

網絡爬蟲爬蟲

P51

隨著互聯網技術的發展以及風起云涌的云計算浪潮。爬蟲技術也逐漸向著分布式方向發展。比如，Google的爬蟲就是使用成千上萬臺小型機和微機進行合作，完成分布式抓取工作的。分布式技術不僅可以解決IT運營的成本，還可以解決爬蟲效率問題，尤其是當今云計算的熱潮，更把分布式推向了極致。設計分布式爬蟲，把抓取任務分布到不同的節點主要是為了抓取性能與可擴展性，也可以使用物理分布的爬蟲系統，讓每個爬蟲節點抓取靠近它的網站。例如，北京的爬蟲節點抓取北京的網站，上海的爬蟲節點抓取上海的網站，電信網絡中的爬蟲節點抓取托管在電信的網站，聯通網絡中的爬蟲節點抓取托管在聯通的網站。

Wyh_D_Void 2011-05-23 890 0

爬蟲網絡爬蟲

P54

Lucene很強大，這點在前面的章節中，已經作了詳細介紹。但是，無論多么強大的搜索引擎工具，在其后臺，都需要一樣東西來支援它，那就是網絡爬蟲Spider。網絡爬蟲，又被稱為蜘蛛Spider，或是網絡機器人、BOT等，這些都無關緊要，最重要的是要認識到，由于爬蟲的存在，才使得搜索引擎有了豐富的資源。Heritrix是一個純由Java開發的、開源的Web網絡爬蟲，用戶可以使用它從網絡上抓取想要的資源。它來自于www.archive.org。Heritrix最出色之處在于它的可擴展性，開發者可以擴展它的各個組件，來實現自己的抓取邏輯。本章就來詳細介紹一下Heritrix和它的各個組件。

www.xinwei 2011-01-16 798 0

Heritrix 網絡爬蟲 Heritrix的使用入門

如何用C#語言構造蜘蛛程序(網絡爬蟲實現) 文檔

百度，Google等搜索引擎的網絡蜘蛛基本原理文檔

Heritrix Web爬蟲配置使用文檔

java網絡爬蟲實例文檔

基于JAVA技術的網頁內容智能抓取文檔

java抓取網站數據文檔

自己動手寫網絡爬蟲（一）文檔

自己動手寫網絡爬蟲（二）文檔

Heritrix的使用入門文檔

關鍵詞

最新上傳

熱門文檔

如何用C#語言構造蜘蛛程序(網絡爬蟲實現) 文檔

百度，Google等搜索引擎的網絡蜘蛛基本原理 文檔

Heritrix Web爬蟲配置使用 文檔

java網絡爬蟲實例 文檔

基于JAVA技術的網頁內容智能抓取 文檔

java抓取網站數據 文檔

自己動手寫網絡爬蟲（一） 文檔

自己動手寫網絡爬蟲（二） 文檔

Heritrix的使用入門 文檔

關鍵詞

最新上傳

熱門文檔

百度，Google等搜索引擎的網絡蜘蛛基本原理文檔

Heritrix Web爬蟲配置使用文檔

java網絡爬蟲實例文檔

基于JAVA技術的網頁內容智能抓取文檔

java抓取網站數據文檔

自己動手寫網絡爬蟲（一）文檔

自己動手寫網絡爬蟲（二）文檔

Heritrix的使用入門文檔