排名前50的開源Web爬蟲用于數據挖掘
有各種用途的網絡爬蟲,但本質上是一個網絡爬蟲是用來從互聯網收集挖掘數據。大多數搜索引擎使用它作為提供了最新數據的方法,并用于查找互聯網上有什么新的內容。 在這篇文章中,介紹前50個開源的Web爬蟲可在網上進行數據挖掘。
項目名 | 開發語言 |
平臺 | </tr>|||||||||||||||||||||||||
Heritrix | Java | Linux | </tr>|||||||||||||||||||||||||
Nutch | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Scrapy | Python | Cross-platform | </tr>|||||||||||||||||||||||||
DataparkSearch | C++ | Cross-platform | </tr>|||||||||||||||||||||||||
GNU Wget | C | Linux | </tr>|||||||||||||||||||||||||
GRUB | C#, C, Python, Perl | Cross-platform | </tr>|||||||||||||||||||||||||
ht://Dig | C++ | Unix | </tr>|||||||||||||||||||||||||
HTTrack | C/C++ | Cross-platform | </tr>|||||||||||||||||||||||||
ICDL Crawler | C++ | Cross-platform | </tr>|||||||||||||||||||||||||
mnoGoSearch | C | Windows | </tr>|||||||||||||||||||||||||
Norconex HTTP Collector | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Open Source Server | C/C++, Java PHP | Cross-platform | </tr>|||||||||||||||||||||||||
PHP-Crawler | PHP | Cross-platform | </tr>|||||||||||||||||||||||||
YaCy | Java | Cross-platform | </tr>|||||||||||||||||||||||||
WebSPHINX | Java | Cross-platform | </tr>|||||||||||||||||||||||||
WebLech | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Arale | Java | Cross-platform | </tr>|||||||||||||||||||||||||
JSpider | Java | Cross-platform | </tr>|||||||||||||||||||||||||
HyperSpider | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Arachnid | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Spindle | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Spider | Java | Cross-platform | </tr>|||||||||||||||||||||||||
LARM | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Metis | Java | Cross-platform | </tr>|||||||||||||||||||||||||
SimpleSpider | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Grunk | Java | Cross-platform | </tr>|||||||||||||||||||||||||
CAPEK | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Aperture | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Smart and Simple Web Crawler | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Web Harvest | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Aspseek | C++ | Linux | </tr>|||||||||||||||||||||||||
Bixo | Java | Cross-platform | </tr>|||||||||||||||||||||||||
crawler4j | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Ebot | Erland | Linux | </tr>|||||||||||||||||||||||||
Hounder | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Hyper Estraier | C/C++ | Cross-platform | </tr>|||||||||||||||||||||||||
OpenWebSpider | C#, PHP | Cross-platform | </tr>|||||||||||||||||||||||||
Pavuk | C | Lunix | </tr>|||||||||||||||||||||||||
Sphider | PHP | Cross-platform | </tr>|||||||||||||||||||||||||
Xapian | C++ | Cross-platform | </tr>|||||||||||||||||||||||||
Arachnode.net | C# | Windows | </tr>|||||||||||||||||||||||||
Crawwwler | C++ | Java | </tr>|||||||||||||||||||||||||
Distributed Web Crawler | C, Java, Python | Cross-platform | </tr>|||||||||||||||||||||||||
iCrawler | Java | Cross-platform | </tr>|||||||||||||||||||||||||
pycreep | Java | Cross-platform | </tr>|||||||||||||||||||||||||
Opese | C++ | Linux | </tr>|||||||||||||||||||||||||
Andjing | Java | ||||||||||||||||||||||||||
Ccrawler | C# | Windows | </tr>|||||||||||||||||||||||||
WebEater | Java | Cross-platform | </tr>|||||||||||||||||||||||||
JoBo | Java | Cross-platform | </tr> </tbody> </table>