開源爬蟲軟件匯總
世界上已經成型的爬蟲軟件多達上百種,本文對較為知名及常見的開源爬蟲軟件進行梳理,按開發語言進行匯總,如下表所示。雖然搜索引擎也有爬蟲,但本次我匯總的只是爬蟲軟件,而非大型、復雜的搜索引擎,因為很多兄弟只是想爬取數據,而非運營一個搜索引擎。</span>
開源爬蟲匯總表
開發語言 </td> |
軟件名稱 </td> |
軟件介紹 </td> |
許可證 </td> </tr> | |||||||||||
Java </td> |
Arachnid </td> |
微型爬蟲框架,含有一個小型HTML解析器 </td> |
GPL </td> </tr> | |||||||||||
crawlzilla </td> |
安裝簡易,擁有中文分詞功能 </td> |
Apache2 </td> </tr> | ||||||||||||
Ex-Crawler </td> |
由守護進程執行,使用數據庫存儲網頁信息 </td> |
GPLv3 </td> </tr> | ||||||||||||
Heritrix </td> |
嚴格遵照robots文件的排除指示和META robots標簽 </td> |
LGPL </td> </tr> | ||||||||||||
heyDr </td> |
輕量級開源多線程垂直檢索爬蟲框架 </td> |
GPLv3 </td> </tr> | ||||||||||||
ItSucks </td> |
提供swing GUI操作界面 </td> |
不詳 </td> </tr> | ||||||||||||
jcrawl </td> |
輕量、性能優良,可以從網頁抓取各種類型的文件 </td> |
Apache </td> </tr> | ||||||||||||
JSpider </td> |
功能強大,容易擴展 </td> |
LGPL </td> </tr> | ||||||||||||
Leopdo </td> |
包括全文和分類垂直搜索,以及分詞系統 </td> |
Apache </td> </tr> | ||||||||||||
MetaSeeker </td> |
網頁抓取、信息提取、數據抽取工具包,操作簡單 </td> |
不詳 </td> </tr> | ||||||||||||
Playfish </td> |
通過XML配置文件實現高度可定制性與可擴展性 </td> |
MIT </td> </tr> | ||||||||||||
Spiderman </td> |
靈活、擴展性強,微內核+插件式架構,通過簡單的配置就可以完成數據抓取,無需編寫一句代碼 </td> |
Apache </td> </tr> | ||||||||||||
webmagic </td> |
功能覆蓋整個爬蟲生命周期,使用Xpath和正則表達式進行鏈接和內容的提取 </td> |
Apache </td> </tr> | ||||||||||||
Web-Harvest </td> |
運用XSLT、XQuery、正則表達式等技術來實現對Text或XML的操作,具有可視化的界面 </td> |
BSD </td> </tr> | ||||||||||||
WebSPHINX </td> |
由兩部分組成:爬蟲工作平臺和WebSPHINX類包 </td> |
Apache </td> </tr> | ||||||||||||
YaCy </td> |
基于P2P的分布式Web搜索引擎 </td> |
GPL </td> </tr> | ||||||||||||
Python </td> |
QuickRecon </td> |
具有查找子域名名稱、收集電子郵件地址并尋找人際關系等功能 </td> |
GPLv3 </td> </tr> | |||||||||||
PyRailgun </td> |
簡潔、輕量、高效的網頁抓取框架 </td> |
MIT </td> </tr> | ||||||||||||
Scrapy </td> |
基于Twisted的異步處理框架,文檔齊全 </td> |
BSD </td> </tr> | ||||||||||||
C++ </td> |
hispider </td> |
支持多機分布式下載, 支持網站定向下載 </td> |
BSD </td> </tr> | |||||||||||
larbin </td> |
高性能的爬蟲軟件,只負責抓取不負責解析 </td> |
GPL </td> </tr> | ||||||||||||
Methabot </td> |
經過速度優化、可抓取WEB、FTP及本地文件系統 </td> |
不詳 </td> </tr> | ||||||||||||
Methanol </td> |
模塊化、可定制的網頁爬蟲,速度快 </td> |
不詳 </td> </tr> | ||||||||||||
C# </td> |
NWebCrawler </td> |
統計信息、執行過程可視化 </td> |
GPLv2 </td> </tr> | |||||||||||
Sinawler </td> |
國內第一個針對微博數據的爬蟲程序,功能強大 </td> |
GPLv3 </td> </tr> | ||||||||||||
spidernet </td> |
以遞歸樹為模型的多線程web爬蟲程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲數據 </td> |
MIT </td> </tr> | ||||||||||||
Web Crawler </td> |
多線程,支持抓取PDF/DOC/EXCEL等文檔來源 </td> |
LGPL </td> </tr> | ||||||||||||
網絡礦工 </td> |
功能豐富,毫不遜色于商業軟件 </td> |
BSD </td> </tr> | ||||||||||||
PHP </td> |
OpenWebSpider </td> |
開源多線程網絡爬蟲,有許多有趣的功能 </td> |
不詳 </td> </tr> | |||||||||||
PhpDig </td> |
適用于專業化強、層次更深的個性化搜索引擎 </td> |
GPL </td> </tr> | ||||||||||||
Snoopy </td> |
具有采集網頁內容、提交表單功能 </td> |
GPL </td> </tr> | ||||||||||||
ThinkUp </td> |
采集推特、臉譜等社交網絡數據的社會媒體視角引擎,可進行交互分析并將結果以可視化形式展現 </td> |
GPL </td> </tr> | ||||||||||||
微購 </td> |
可采集淘寶、京東、當當等300多家電子商務數據 </td> |
GPL </td> </tr> | ||||||||||||
ErLang </td> |
Ebot </td> |
可伸縮的分布式網頁爬蟲 </td> |
GPLv3 </td> </tr> | |||||||||||
Ruby </td> |
Spidr </td> |
可將一個或多個網站、某個鏈接完全抓取到本地 </td> |
MIT </td> </tr> </tbody> </table> 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
相關資訊 |