Java 網絡爬蟲:Egg
Egg簡介
Egg簡單小巧,效率很高,速度很快,配置簡單方便,接口簡潔,適合多種數據訪問方式。實測,在20M無線網下(隔了個墻,所以有時不穩定)速度穩定在1.2-2.5M/S,峰值可以達到3M.實測抓取百度百科,1000網頁大概在 17-20秒左右。10000在1:50-2:30左右。
速度說明:
實測說明,在20M無線網下(隔了個墻,不一定穩定)
1.爬取1000網頁,重復爬取十次
a.8核,耗時平局在15秒左右
b.16核,平均耗時12秒左右
c.32核,平均耗時12秒左右
所以默認情況下使用16核
開發說明:
作者是在校大學生,非常希望能通過自己的努力,可以推動一點開源事業的發展,很希望可以為開源做出自己的一份貢獻,更希望能夠在一個深入發掘。Egg雖然還有很多不如人意的地方,但是作為在校大學生,會為大家及時解決并更新代碼。遇到有需要的需求,可以及時添加功能,和大家廣泛交流。作為開發者,在開發出簡單易懂,容易使用的軟件做著努力,所以,初學者我認為也應該很容易可以從它里面獲取自己想要的。大家可以閱讀源碼,熟悉代碼流程,和相關包的使用。
功能
1.可以通過各種方式爬取網頁,當然有些并不完善,在目前主要實現get,post,其余會繼續開發
2.可以從網頁中提取出內容
3.其余在仍在開發....
希望:
作為開發者當然希望越來越多的人使用它。并且可以為它提出你寶貴的意見和建議。
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!