源網絡爬蟲 Snaker

fmms 12年前發布 | 44K 次閱讀 爬蟲 網絡爬蟲

最近開發的一個通用網絡爬蟲平臺,主要是想滿足自己想從特定網站抓取大量內容的需求,有如下特點:

1. 支持cookie/session,所以支持登錄論壇和網站
2. 支持圖像識別,可以由人工識別或者機器識別
3. 多線程下載,性能不錯
4. 支持代理
5. 支持HTTPS和證書驗證
6. 支持可插拔腳本,對特別網站使用特別的腳本(javascript編寫)。
7. 有Web界面,操作方便

項目位置: http://code.google.com/p/ssnaker/
下載: http://ssnaker.googlecode.com/files/snaker_1.00_b6.zip

最新的版本也實現一個火車票刷票的功能(具體實現都放在engines/train.js)

test.jpg

 本文由用戶 fmms 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!