排名前50的開源Web爬蟲用于數據挖掘
有各種用途的網絡爬蟲,但本質上是一個網絡爬蟲是用來從互聯網收集挖掘數據。大多數搜索引擎使用它作為提供了最新數據的方法,并用于查找互聯網上有什么新的內容。 在這篇文章中,介紹前50個開源的Web爬蟲可在網上進行數據挖掘。
| 項目名 | 開發語言 |
平臺 | </tr>|||||||||||||||||||||||||
| Heritrix | Java | Linux | </tr>|||||||||||||||||||||||||
| Nutch | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Scrapy | Python | Cross-platform | </tr>|||||||||||||||||||||||||
| DataparkSearch | C++ | Cross-platform | </tr>|||||||||||||||||||||||||
| GNU Wget | C | Linux | </tr>|||||||||||||||||||||||||
| GRUB | C#, C, Python, Perl | Cross-platform | </tr>|||||||||||||||||||||||||
| ht://Dig | C++ | Unix | </tr>|||||||||||||||||||||||||
| HTTrack | C/C++ | Cross-platform | </tr>|||||||||||||||||||||||||
| ICDL Crawler | C++ | Cross-platform | </tr>|||||||||||||||||||||||||
| mnoGoSearch | C | Windows | </tr>|||||||||||||||||||||||||
| Norconex HTTP Collector | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Open Source Server | C/C++, Java PHP | Cross-platform | </tr>|||||||||||||||||||||||||
| PHP-Crawler | PHP | Cross-platform | </tr>|||||||||||||||||||||||||
| YaCy | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| WebSPHINX | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| WebLech | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Arale | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| JSpider | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| HyperSpider | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Arachnid | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Spindle | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Spider | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| LARM | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Metis | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| SimpleSpider | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Grunk | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| CAPEK | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Aperture | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Smart and Simple Web Crawler | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Web Harvest | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Aspseek | C++ | Linux | </tr>|||||||||||||||||||||||||
| Bixo | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| crawler4j | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Ebot | Erland | Linux | </tr>|||||||||||||||||||||||||
| Hounder | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Hyper Estraier | C/C++ | Cross-platform | </tr>|||||||||||||||||||||||||
| OpenWebSpider | C#, PHP | Cross-platform | </tr>|||||||||||||||||||||||||
| Pavuk | C | Lunix | </tr>|||||||||||||||||||||||||
| Sphider | PHP | Cross-platform | </tr>|||||||||||||||||||||||||
| Xapian | C++ | Cross-platform | </tr>|||||||||||||||||||||||||
| Arachnode.net | C# | Windows | </tr>|||||||||||||||||||||||||
| Crawwwler | C++ | Java | </tr>|||||||||||||||||||||||||
| Distributed Web Crawler | C, Java, Python | Cross-platform | </tr>|||||||||||||||||||||||||
| iCrawler | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| pycreep | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| Opese | C++ | Linux | </tr>|||||||||||||||||||||||||
| Andjing | Java | ||||||||||||||||||||||||||
| Ccrawler | C# | Windows | </tr>|||||||||||||||||||||||||
| WebEater | Java | Cross-platform | </tr>|||||||||||||||||||||||||
| JoBo | Java | Cross-platform | </tr> </tbody> </table>