開源爬蟲軟件匯總

jopen 10年前發布 | 50K 次閱讀 爬蟲 網絡爬蟲

世界上已經成型的爬蟲軟件多達上百種,本文對較為知名及常見的開源爬蟲軟件進行梳理,按開發語言進行匯總,如下表所示。雖然搜索引擎也有爬蟲,但本次我匯總的只是爬蟲軟件,而非大型、復雜的搜索引擎,因為很多兄弟只是想爬取數據,而非運營一個搜索引擎。</span>

</strong></span>

開源爬蟲匯總表

開發語言

</td>

軟件名稱

</td>

軟件介紹

</td>

許可證

</td> </tr>

Java

</td>

Arachnid

</td>

微型爬蟲框架,含有一個小型HTML解析器

</td>

GPL

</td> </tr>

crawlzilla

</td>

安裝簡易,擁有中文分詞功能

</td>

Apache2

</td> </tr>

Ex-Crawler

</td>

由守護進程執行,使用數據庫存儲網頁信息

</td>

GPLv3

</td> </tr>

Heritrix

</td>

嚴格遵照robots文件的排除指示和META robots標簽

</td>

LGPL

</td> </tr>

heyDr

</td>

輕量級開源多線程垂直檢索爬蟲框架

</td>

GPLv3

</td> </tr>

ItSucks

</td>

提供swing GUI操作界面

</td>

不詳

</td> </tr>

jcrawl

</td>

輕量、性能優良,可以從網頁抓取各種類型的文件

</td>

Apache

</td> </tr>

JSpider

</td>

功能強大,容易擴展

</td>

LGPL

</td> </tr>

Leopdo

</td>

包括全文和分類垂直搜索,以及分詞系統

</td>

Apache

</td> </tr>

MetaSeeker

</td>

網頁抓取、信息提取、數據抽取工具包,操作簡單

</td>

不詳

</td> </tr>

Playfish

</td>

通過XML配置文件實現高度可定制性與可擴展性

</td>

MIT

</td> </tr>

Spiderman

</td>

靈活、擴展性強,微內核+插件式架構,通過簡單的配置就可以完成數據抓取,無需編寫一句代碼

</td>

Apache

</td> </tr>

webmagic

</td>

功能覆蓋整個爬蟲生命周期,使用Xpath和正則表達式進行鏈接和內容的提取

</td>

Apache

</td> </tr>

Web-Harvest

</td>

運用XSLT、XQuery、正則表達式等技術來實現對Text或XML的操作,具有可視化的界面

</td>

BSD

</td> </tr>

WebSPHINX

</td>

由兩部分組成:爬蟲工作平臺和WebSPHINX類包

</td>

Apache

</td> </tr>

YaCy

</td>

基于P2P的分布式Web搜索引擎

</td>

GPL

</td> </tr>

Python

</td>

QuickRecon

</td>

具有查找子域名名稱、收集電子郵件地址并尋找人際關系等功能

</td>

GPLv3

</td> </tr>

PyRailgun

</td>

簡潔、輕量、高效的網頁抓取框架

</td>

MIT

</td> </tr>

Scrapy

</td>

基于Twisted的異步處理框架,文檔齊全

</td>

BSD

</td> </tr>

C++

</td>

hispider

</td>

支持多機分布式下載, 支持網站定向下載

</td>

BSD

</td> </tr>

larbin

</td>

高性能的爬蟲軟件,只負責抓取不負責解析

</td>

GPL

</td> </tr>

Methabot

</td>

經過速度優化、可抓取WEB、FTP及本地文件系統

</td>

不詳

</td> </tr>

Methanol

</td>

模塊化、可定制的網頁爬蟲,速度快

</td>

不詳

</td> </tr>

C#

</td>

NWebCrawler

</td>

統計信息、執行過程可視化

</td>

GPLv2

</td> </tr>

Sinawler

</td>

國內第一個針對微博數據的爬蟲程序,功能強大

</td>

GPLv3

</td> </tr>

spidernet

</td>

以遞歸樹為模型的多線程web爬蟲程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲數據

</td>

MIT

</td> </tr>

Web Crawler

</td>

多線程,支持抓取PDF/DOC/EXCEL等文檔來源

</td>

LGPL

</td> </tr>

網絡礦工

</td>

功能豐富,毫不遜色于商業軟件

</td>

BSD

</td> </tr>

PHP

</td>

OpenWebSpider

</td>

開源多線程網絡爬蟲,有許多有趣的功能

</td>

不詳

</td> </tr>

PhpDig

</td>

適用于專業化強、層次更深的個性化搜索引擎

</td>

GPL

</td> </tr>

Snoopy

</td>

具有采集網頁內容、提交表單功能

</td>

GPL

</td> </tr>

ThinkUp

</td>

采集推特、臉譜等社交網絡數據的社會媒體視角引擎,可進行交互分析并將結果以可視化形式展現

</td>

GPL

</td> </tr>

微購

</td>

可采集淘寶、京東、當當等300多家電子商務數據

</td>

GPL

</td> </tr>

ErLang

</td>

Ebot

</td>

可伸縮的分布式網頁爬蟲

</td>

GPLv3

</td> </tr>

Ruby

</td>

Spidr

</td>

可將一個或多個網站、某個鏈接完全抓取到本地

</td>

MIT

</td> </tr> </tbody> </table>

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
  • sesese色