基于JAVA的網絡爬蟲腳本語言：CrawlScript

jopen 12年前發布 | 20K 次閱讀網絡爬蟲 CrawlScript

CrawlScript 基于JAVA的網絡爬蟲腳本語言，可以直接使用或用JAVA二次開發。

網絡爬蟲即自動獲取網頁信息的一種程序，有很多JAVA、C++的網絡爬蟲類庫，但是在這些類庫的基礎上開發十分繁瑣，需要大量的代碼才可以完成一個簡單的操作。鑒于這個問題，我們開發了CrawlScript這種腳本語言，程序員只需要寫2-3行簡單的代碼，就可以制作一個強大的網絡爬蟲。同時，CrawlScript由JAVA編寫，可以在其他JAVA程序中被簡單調用。

CrawlScript是跨平臺的,在任何有JDK環境的電腦上都可以運行，無論是windows、linux還是unix。

運行CrawlScript的方法：用命令行進入工程里的CrawlScript-bin文件夾，java -jar crawlscript.jar即可進入crawlscript的shell。輸入doc=$("http://www.baidu.com") ，回車，可看到百度網頁的所有文字。

運行CrawlScript源碼的方法：將工程中的CrawlScript文件夾，用eclipse以導入已有項目的方式導入，運行項目中的MyShell.java即可打開腳本shell，在shell中即可編寫CrawlScript腳本，例如: doc=$("http://www.baidu.com"); print(doc.a());

項目主頁：http://www.baiduhome.net/lib/view/home/1390097926898

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1390097926898.html

網絡爬蟲 CrawlScript

基于JAVA的網絡爬蟲腳本語言：CrawlScript

相關經驗

相關資訊

相關文檔

目錄