Java 爬蟲框架,SeimiCrawler v0.2.6 發布

jopen 8年前發布 | 9K 次閱讀

特別介紹

2016.01.05:專門為SeimiCrawler工程打包部署的maven-seimicrawler-plugin已經發布可用,詳細請繼續參閱maven-seimicrawler-plugin或是詳細文檔中"工程化打包部署章"節。

Change log

v0.2.6

  • 增加統一的啟動入口類,配合未來SeimiCrawler的maven構建plugin一起使用

  • meta refresh方式跳轉優化,設置最多上限為3次,防止遇到持續刷新頁面無法跳出

  • bug fix:修復在Request中自定義數據無法傳向Response的問題

SeimiCrawler的目標是成為Java世界最好用最實用的爬蟲框架。

簡介

SeimiCrawler是一個敏捷的,支持分布式的Java爬蟲開發框架,希望能在最大程度上降低新手開發一個可用性高且性能不差的爬蟲系統的門檻,以 及提升開發爬蟲系統的開發效率。在SeimiCrawler的世界里,絕大多數人只需關心去寫抓取的業務邏輯就夠了,其余的Seimi幫你搞定。設計思想 上SeimiCrawler受Python的爬蟲框架Scrapy啟發很大,同時融合了Java語言本身特點與Spring的特性,并希望在國內更方便且 普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默認的HTML解析器是JsoupXpath,默認解析提取HTML數據工作均使用XPath來完成(當然,數據處理亦可以自行選擇其他解析器)。

原理示例

基本原理

SeimiCrawler v0.2.6 發布,Java 爬蟲框架

來自: http://www.oschina.net/news/69741/seimicrawler-0-2-6

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!