Java爬蟲框架,WebMagic 0.5.3 版本發布

jopen 9年前發布 | 18K 次閱讀

webmagic的是一個無須配置、便于二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。

以下是爬取oschina博客的一段代碼:

1
2
Spider.create(new SimplePageProcessor("http://my.oschina.net/",
"http://my.oschina.net/*/blog/*")).thread(5).run();

webmagic采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。

webmagic包含強大的頁面抽取功能,開發者可以便捷的使用css selector、xpath和正則表達式進行鏈接和內容的提取,支持多個選擇器鏈式調用。例如:

1
2
String extractResult = Html.create(html).$("div.body")
.xpath("http://a/@href").regex(".*blog.*").toString();

webmagic也可以很方便的作為一個模塊,嵌入Java項目中運行。

時隔一年半,作者終于回歸了。這個版本主要解決之前的一些BUG,后續會慢慢的繼續完善功能。
  • 升級Xsoup到0.3.1,支持//div[contains(@id,'te')]語法。

  • #245 升級Jsoup到1.8.3,解決n-th selector二進制不兼容的問題。

  • #139 修復JsonFilePipeline保存路徑的問題

  • #144 修復@TargetUrl增加SourceRegion后取不到鏈接的問題

  • #157 修復FileCacheQueueScheduler中去重偶爾不工作的問題 @zhugw

  • #188 增加重試的間隔時間,默認為1秒 @edwardsbean

  • #193 修復分頁功能MultiPagePipeline可能出現的并發問題 edwardsbean

  • #198 修正site.setHttpProxy()不起作用的bug @okuc

來自: http://www.oschina.net//news/70120/webmagic-0-5-3

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!