世界領先的數據爬蟲 :myspider
功能
- 用戶友好,一個管控界面解決全部問題
- 新站點抓取無需重新部署
- 天生分布式。支持集群動態擴、縮容
- 精準解析。解析腳本化,支持Groovy, Javascript, python
- 支持的去重方式:redis, mongodb, ehcache, 內存
- 支持的隊列: redis, mongodb(可靠抓取), ehcache, 內存
- 支持偽分布式:一臺機器模擬集群。
- 支持大集群虛擬分組功能:隔離故障,降低維護成本。
- 模塊化:方便地使用腳本在運行時控制proxy,http header, url
- 直接對接maven庫,讓部署新任務自動化、規范化
- 分布式自動調度:無論單機還是多機都提供可靠的調度。不重復,不遺漏。
- 提供低資源占用的js動態渲染解決方案:抓取ajax內容從此簡單。
- 增量抓取功能:新聞,股票,競品數據...
- 多頁面數據合并功能:一條完整數據橫跨幾個頁面?沒關系!
- 分頁抓取功能,毫無亂序。
- 提供輔助功能,利用機器學習實現無解析化抓取(實驗特性)
- 提供多種數據持久化策略:無論您想直接保存在db,還是希望實時處理,想要的都可以滿足。
- 登錄:你懂的。
- 驗證碼破解服務:你懂的,不羅嗦。
- 提供多種變幻莫測的代理策略:當然你只需要管控界面上動動鼠標。
- 解析太頭疼?看看解析工具里的武器。表格,列表只需一條語句。
- OCR太深奧?我都給你包好了,絕不放過任何一條數據。 </ul>
運行
以IDEA為例,導入工程。新建一個run Configuration, 選擇gradle 然后就可以run或者debug。
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!