源網絡爬蟲 Snaker
最近開發的一個通用網絡爬蟲平臺,主要是想滿足自己想從特定網站抓取大量內容的需求,有如下特點:
1. 支持cookie/session,所以支持登錄論壇和網站
2. 支持圖像識別,可以由人工識別或者機器識別
3. 多線程下載,性能不錯
4. 支持代理
5. 支持HTTPS和證書驗證
6. 支持可插拔腳本,對特別網站使用特別的腳本(javascript編寫)。
7. 有Web界面,操作方便
項目位置:
http://code.google.com/p/ssnaker/
下載:
http://ssnaker.googlecode.com/files/snaker_1.00_b6.zip
最新的版本也實現一個火車票刷票的功能(具體實現都放在engines/train.js)
本文由用戶 fmms 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!