世界領先的數據爬蟲 :myspider

jopen 9年前發布 | 10K 次閱讀 myspider 網絡爬蟲

功能

  • 用戶友好,一個管控界面解決全部問題
  • 新站點抓取無需重新部署
  • 天生分布式。支持集群動態擴、縮容
  • 精準解析。解析腳本化,支持Groovy, Javascript, python
  • 支持的去重方式:redis, mongodb, ehcache, 內存
  • 支持的隊列: redis, mongodb(可靠抓取), ehcache, 內存
  • 支持偽分布式:一臺機器模擬集群。
  • 支持大集群虛擬分組功能:隔離故障,降低維護成本。
  • 模塊化:方便地使用腳本在運行時控制proxy,http header, url
  • 直接對接maven庫,讓部署新任務自動化、規范化
  • 分布式自動調度:無論單機還是多機都提供可靠的調度。不重復,不遺漏。
  • 提供低資源占用的js動態渲染解決方案:抓取ajax內容從此簡單。
  • 增量抓取功能:新聞,股票,競品數據...
  • 多頁面數據合并功能:一條完整數據橫跨幾個頁面?沒關系!
  • 分頁抓取功能,毫無亂序。
  • 提供輔助功能,利用機器學習實現無解析化抓取(實驗特性)
  • 提供多種數據持久化策略:無論您想直接保存在db,還是希望實時處理,想要的都可以滿足。
  • 登錄:你懂的。
  • 驗證碼破解服務:你懂的,不羅嗦。
  • 提供多種變幻莫測的代理策略:當然你只需要管控界面上動動鼠標。
  • 解析太頭疼?看看解析工具里的武器。表格,列表只需一條語句。
  • OCR太深奧?我都給你包好了,絕不放過任何一條數據。
  • </ul>

    運行

    以IDEA為例,導入工程。新建一個run Configuration, 選擇gradle 然后就可以run或者debug。

    項目主頁:http://www.baiduhome.net/lib/view/home/1450965751058

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!