Go開源爬蟲軟件,Pholcus 0.7.4 發布
Pholcus(幽靈蛛)是一款純Go語言編寫的重量級爬蟲軟件,清新的GUI界面,優雅的爬蟲規則、可控的高并發、任意的批量任務、多種輸出方式、大量Demo,支持橫縱向兩種抓取模式,支持模擬登錄和任務取消等,并且考慮了支持分布式布局。
Pholcus 0.7.4 發布,更新如下:
-
Spider中添加Namespace func(*Spider) string與SubNamespace func(self *Spider, dataCell map[string]interface{}) string兩個字段,實現自定義數據庫、表單及文件的名稱
-
簡化數據庫配置信息
-
mongodb輸出中,將采集結果字段直接作為數據存儲字段,便于檢索
-
更新計時器等spider中公用方法
-
可通過DownloaderID指定下載器,其中phantomjs下載支持請求中定義js,用法Request.Temp["JS"]=js編碼(請更新surfer下載器)
-
AddOutFeild(key)返回索引位置
-
增加輸出統計報告的打印
-
提高被取消的請求刪除去重記錄的精確度
下載頁面:v0.7.4
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!