Java爬蟲框架,WebMagic 0.5.3 版本發布
webmagic的是一個無須配置、便于二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。
以下是爬取oschina博客的一段代碼:
|
1
2
|
Spider.create(new SimplePageProcessor("http://my.oschina.net/","http://my.oschina.net/*/blog/*")).thread(5).run(); |
webmagic采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。
webmagic包含強大的頁面抽取功能,開發者可以便捷的使用css selector、xpath和正則表達式進行鏈接和內容的提取,支持多個選擇器鏈式調用。例如:
|
1
2
|
String extractResult = Html.create(html).$("div.body").xpath("http://a/@href").regex(".*blog.*").toString(); |
webmagic也可以很方便的作為一個模塊,嵌入Java項目中運行。
時隔一年半,作者終于回歸了。這個版本主要解決之前的一些BUG,后續會慢慢的繼續完善功能。-
升級Xsoup到0.3.1,支持//div[contains(@id,'te')]語法。
-
#245 升級Jsoup到1.8.3,解決n-th selector二進制不兼容的問題。
-
#139 修復JsonFilePipeline保存路徑的問題
-
#144 修復@TargetUrl增加SourceRegion后取不到鏈接的問題
-
#188 增加重試的間隔時間,默認為1秒 @edwardsbean
-
#193 修復分頁功能MultiPagePipeline可能出現的并發問題 edwardsbean
來自: http://www.oschina.net//news/70120/webmagic-0-5-3
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!