基于JAVA的網絡爬蟲腳本語言:CrawlScript
CrawlScript 基于JAVA的網絡爬蟲腳本語言,可以直接使用或用JAVA二次開發。
網絡爬蟲即自動獲取網頁信息的一種程序,有很多JAVA、C++的網絡爬蟲類庫,但是在這些類庫的基礎上開發十分繁瑣,需要大量的代碼才可以完成一個簡單的操作。鑒于這個問題,我們開發了CrawlScript這種腳本語言,程序員只需要寫2-3行簡單的代碼,就可以制作一個強大的網絡爬蟲。同時,CrawlScript由JAVA編寫,可以在其他JAVA程序中被簡單調用。
CrawlScript是跨平臺的,在任何有JDK環境的電腦上都可以運行,無論是windows、linux還是unix。
運行CrawlScript的方法:用命令行進入工程里的CrawlScript-bin文件夾,java -jar crawlscript.jar即可進入crawlscript的shell。輸入doc=$("http://www.baidu.com") ,回車,可看到百度網頁的所有文字。
運行CrawlScript源碼的方法:將工程中的CrawlScript文件夾,用eclipse以導入已有項目的方式導入,運行項目中的MyShell.java即可打開腳本shell,在shell中即可編寫CrawlScript腳本,例如: doc=$("http://www.baidu.com"); print(doc.a());
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!