Java 網絡爬蟲:Egg

jopen 9年前發布 | 9K 次閱讀 Egg 網絡爬蟲

Egg簡介

    Egg簡單小巧,效率很高,速度很快,配置簡單方便,接口簡潔,適合多種數據訪問方式。實測,在20M無線網下(隔了個墻,所以有時不穩定)速度穩定在1.2-2.5M/S,峰值可以達到3M.實測抓取百度百科,1000網頁大概在 17-20秒左右。10000在1:50-2:30左右。

速度說明:

實測說明,在20M無線網下(隔了個墻,不一定穩定)

    1.爬取1000網頁,重復爬取十次

        a.8核,耗時平局在15秒左右 

        b.16核,平均耗時12秒左右

        c.32核,平均耗時12秒左右  

    所以默認情況下使用16核  

開發說明:

    作者是在校大學生,非常希望能通過自己的努力,可以推動一點開源事業的發展,很希望可以為開源做出自己的一份貢獻,更希望能夠在一個深入發掘。Egg雖然還有很多不如人意的地方,但是作為在校大學生,會為大家及時解決并更新代碼。遇到有需要的需求,可以及時添加功能,和大家廣泛交流。作為開發者,在開發出簡單易懂,容易使用的軟件做著努力,所以,初學者我認為也應該很容易可以從它里面獲取自己想要的。大家可以閱讀源碼,熟悉代碼流程,和相關包的使用。

功能

    1.可以通過各種方式爬取網頁,當然有些并不完善,在目前主要實現get,post,其余會繼續開發

    2.可以從網頁中提取出內容

    3.其余在仍在開發....


希望:

    作為開發者當然希望越來越多的人使用它。并且可以為它提出你寶貴的意見和建議。

 

項目主頁:http://www.baiduhome.net/lib/view/home/1440248976614

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!