Pholcus 爬蟲 v0.8.2,性能提升 20% 以上
Pholcus(幽靈蛛)是一款純Go語言編寫的高并發、分布式、重量級爬蟲軟件,支持單機、服務端、客戶端三種運行模式,擁有Web、GUI、命令行三種操作界面;規則簡單靈活、批量任務并發、輸出方式豐富(mysql/mongodb/csv/excel等)、有大量Demo共享;同時她還支持橫縱向兩種抓取模式,支持模擬登錄和任務暫停、取消等一系列高級功能。
V0.8.0版本更新如下:
-
移除Response;
-
重構Context,同時增加Context.GetCookie()方法;
-
重構mgo與mysql輸出模塊,優化連接池,增加異常重連函數,提高輸出性能與穩定性;
-
優化調度器中sdl.Push()方法,降低內存占用;
-
修復不支持freebsd系統的bug;
-
規范全局代碼;
-
規范日志打印格式;
-
兼容 go1.6 版本;
-
本版本通過大量代碼重構與優化,減少約30%的堆棧數量。
Pholcus特點:
-
Pholcus(幽靈蛛)以高效率,高靈活性和人性化設計為開發的指導思想;
-
支持單機、服務端、客戶端三種運行模式,即支持分布式布局,適用于各種業務需要;
-
支持Web、GUI、命令行三種操作界面,適用于各種運行環境;
-
支持mysql/mongodb/csv/excel等多種輸出方式,且可以輕松添加更多輸出方式;
-
采用surfer高并發下載器,支持 GET/POST/HEAD 方法及 http/https 協議,同時支持固定UserAgent自動保存cookie與隨機大量UserAgent禁用cookie兩種模式,高度模擬瀏覽器行為,可實現模擬登錄等功能;
-
服務器/客戶端模式采用teleport高并發socketAPI框架,全雙工長連接通信,內部數據傳輸格式為JSON;
-
對采集規則進行了精心設計,支持靜態編譯與動態JS兩種規則,靈活簡單且有大量Demo,寫規則就是這么輕松;
-
支持橫縱向兩種抓取模式,并且支持任務暫停、取消等操作。
</ul> </div>
來自: http://www.oschina.net/news/71195/pholcus-0-8-2