Pholcus 爬蟲 v0.8.2,性能提升 20% 以上

jopen 8年前發布 | 6K 次閱讀 MySQL Go語言 分布式系統

Pholcus(幽靈蛛)是一款純Go語言編寫的高并發、分布式、重量級爬蟲軟件,支持單機、服務端、客戶端三種運行模式,擁有Web、GUI、命令行三種操作界面;規則簡單靈活、批量任務并發、輸出方式豐富(mysql/mongodb/csv/excel等)、有大量Demo共享;同時她還支持橫縱向兩種抓取模式,支持模擬登錄和任務暫停、取消等一系列高級功能。

Pholcus 爬蟲 v0.8.2,性能提升 20% 以上

V0.8.0版本更新如下:

  • 移除Response;

  • 重構Context,同時增加Context.GetCookie()方法;

  • 重構mgo與mysql輸出模塊,優化連接池,增加異常重連函數,提高輸出性能與穩定性;

  • 優化調度器中sdl.Push()方法,降低內存占用;

  • 修復不支持freebsd系統的bug;

  • 規范全局代碼;

  • 規范日志打印格式;

  • 兼容 go1.6 版本;

  • 本版本通過大量代碼重構與優化,減少約30%的堆棧數量。

Pholcus特點:

  • Pholcus(幽靈蛛)以高效率,高靈活性和人性化設計為開發的指導思想;

  • 支持單機、服務端、客戶端三種運行模式,即支持分布式布局,適用于各種業務需要;

  • 支持Web、GUI、命令行三種操作界面,適用于各種運行環境;

  • 支持mysql/mongodb/csv/excel等多種輸出方式,且可以輕松添加更多輸出方式;

  • 采用surfer高并發下載器,支持 GET/POST/HEAD 方法及 http/https 協議,同時支持固定UserAgent自動保存cookie與隨機大量UserAgent禁用cookie兩種模式,高度模擬瀏覽器行為,可實現模擬登錄等功能;

  • 服務器/客戶端模式采用teleport高并發socketAPI框架,全雙工長連接通信,內部數據傳輸格式為JSON;

  • 對采集規則進行了精心設計,支持靜態編譯與動態JS兩種規則,靈活簡單且有大量Demo,寫規則就是這么輕松;

  • 支持橫縱向兩種抓取模式,并且支持任務暫停、取消等操作。

  • </ul> </div>

    來自: http://www.oschina.net/news/71195/pholcus-0-8-2

     本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
     轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
     本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!