• P7

      如何用C#語言構造蜘蛛程序(網絡爬蟲實現) 文檔

     本文介紹如何用C#語言構造一個蜘蛛程序,它能夠把整個網站的內容下載到某個指定的目錄,程序的運行界面如圖一。你可以方便地利用本文提供的幾個核心類構造出自己的蜘蛛程序。

    yyt1987 2011-10-28   621   0
    P15

      百度,Google等搜索引擎的網絡蜘蛛基本原理 文檔

    網絡蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。

    dongjun 2011-10-23   6782   0
    P23

      Heritrix Web爬蟲配置使用 文檔

    本文由淺入深,詳細介紹了Heritrix在Eclipse中的配置、運行。最后對其進行擴展,介紹如何實現只抓取特定網站的頁面。通過本文,讀者可以了解Heritrix的相關特點以及在Eclipse中的配置運行,能夠從零開始構建特定站點的專有爬蟲,從而為網站增加全文檢索服務

    sunhaiyang 2011-09-19   527   0
    P34

      java網絡爬蟲實例 文檔

    網絡蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從 網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網 站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。

    lijinfei 2011-08-16   8529   0
    P10

      基于JAVA技術的網頁內容智能抓取 文檔

    完全基于java的技術。核心技術:XML解析,HTML解析,開源組件應用。

    lijinfei 2011-08-16   725   0
    P17

      java抓取網站數據 文檔

    zjameschen 2011-07-07   873   0
    P67

      自己動手寫網絡爬蟲(一) 文檔

    你知道百度、Google是如何獲取數以億計的網頁并且實時更新的嗎?你知道在搜索引擎領域人們常說的Spider是什么嗎?本章將全面介紹網絡爬蟲的方方面面。讀完之后,你將完全有能力自己寫一個網絡爬蟲,隨意抓取互聯網上任何感興趣的東西。 既然百度、Google這些搜索引擎巨頭已經幫我們抓取了互聯網上的大部分信息,為什么還要自己寫爬蟲呢?因為深入整合信息的需求是廣泛存在的。在企業中,爬蟲抓取下來的信息可以作為數據倉庫多維展現的數據源,也可以作為數據挖掘的來源。甚至有人為了炒股,專門抓取股票信息。既然從美國中情局到普通老百姓都需要,那還等什么,讓我們快開始吧。 網絡爬蟲的基本操作是抓取網頁。那么如何才能隨心所欲地獲得自己想要的頁面?這一節將從URL開始講起,然后告訴大家如何抓取網頁,并給出一個使用Java語言抓取網頁的例子。最后,要講一講抓取過程中的一個重要問題:如何處理HTTP狀態碼。

    Wyh_D_Void 2011-05-23   1001   0
    P51

      自己動手寫網絡爬蟲(二) 文檔

    隨著互聯網技術的發展以及風起云涌的云計算浪潮。爬蟲技術也逐漸向著分布式方向發展。比如,Google的爬蟲就是使用成千上萬臺小型機和微機進行合作,完成分布式抓取工作的。分布式技術不僅可以解決IT運營的成本,還可以解決爬蟲效率問題,尤其是當今云計算的熱潮,更把分布式推向了極致。設計分布式爬蟲,把抓取任務分布到不同的節點主要是為了抓取性能與可擴展性,也可以使用物理分布的爬蟲系統,讓每個爬蟲節點抓取靠近它的網站。例如,北京的爬蟲節點抓取北京的網站,上海的爬蟲節點抓取上海的網站,電信網絡中的爬蟲節點抓取托管在電信的網站,聯通網絡中的爬蟲節點抓取托管在聯通的網站。

    Wyh_D_Void 2011-05-23   890   0
    P54

      Heritrix的使用入門 文檔

    Lucene很強大,這點在前面的章節中,已經作了詳細介紹。但是,無論多么強大的搜索引擎工具,在其后臺,都需要一樣東西來支援它,那就是網絡爬蟲Spider。網絡爬蟲,又被稱為蜘蛛Spider,或是網絡機器人、BOT等,這些都無關緊要,最重要的是要認識到,由于爬蟲的存在,才使得搜索引擎有了豐富的資源。Heritrix是一個純由Java開發的、開源的Web網絡爬蟲,用戶可以使用它從網絡上抓取想要的資源。它來自于www.archive.org。Heritrix最出色之處在于它的可擴展性,開發者可以擴展它的各個組件,來實現自己的抓取邏輯。本章就來詳細介紹一下Heritrix和它的各個組件。

    www.xinwei 2011-01-16   798   0
    1 2

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色