Java 爬蟲框架,SeimiCrawler v0.2.6 發布
特別介紹
2016.01.05:專門為SeimiCrawler工程打包部署的maven-seimicrawler-plugin已經發布可用,詳細請繼續參閱maven-seimicrawler-plugin或是詳細文檔中"工程化打包部署章"節。
Change log
v0.2.6
-
增加統一的啟動入口類,配合未來SeimiCrawler的maven構建plugin一起使用
-
meta refresh方式跳轉優化,設置最多上限為3次,防止遇到持續刷新頁面無法跳出
-
bug fix:修復在Request中自定義數據無法傳向Response的問題
SeimiCrawler的目標是成為Java世界最好用最實用的爬蟲框架。
簡介
SeimiCrawler是一個敏捷的,支持分布式的Java爬蟲開發框架,希望能在最大程度上降低新手開發一個可用性高且性能不差的爬蟲系統的門檻,以 及提升開發爬蟲系統的開發效率。在SeimiCrawler的世界里,絕大多數人只需關心去寫抓取的業務邏輯就夠了,其余的Seimi幫你搞定。設計思想 上SeimiCrawler受Python的爬蟲框架Scrapy啟發很大,同時融合了Java語言本身特點與Spring的特性,并希望在國內更方便且 普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默認的HTML解析器是JsoupXpath,默認解析提取HTML數據工作均使用XPath來完成(當然,數據處理亦可以自行選擇其他解析器)。
原理示例
基本原理
來自: http://www.oschina.net/news/69741/seimicrawler-0-2-6