Go開源爬蟲軟件,Pholcus 0.7.4 發布

jopen 9年前發布 | 8K 次閱讀 Pholcus

Pholcus(幽靈蛛)是一款純Go語言編寫的重量級爬蟲軟件,清新的GUI界面,優雅的爬蟲規則、可控的高并發、任意的批量任務、多種輸出方式、大量Demo,支持橫縱向兩種抓取模式,支持模擬登錄和任務取消等,并且考慮了支持分布式布局。

Pholcus 0.7.4 發布,更新如下:

  1. Spider中添加Namespace func(*Spider) string與SubNamespace func(self *Spider, dataCell map[string]interface{}) string兩個字段,實現自定義數據庫、表單及文件的名稱

  2. 簡化數據庫配置信息

  3. mongodb輸出中,將采集結果字段直接作為數據存儲字段,便于檢索

  4. 更新計時器等spider中公用方法

  5. 可通過DownloaderID指定下載器,其中phantomjs下載支持請求中定義js,用法Request.Temp["JS"]=js編碼(請更新surfer下載器)

  6. AddOutFeild(key)返回索引位置

  7. 增加輸出統計報告的打印

  8. 提高被取消的請求刪除去重記錄的精確度

下載頁面:v0.7.4


 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!