Java網頁抓取工具 PlayFish

jopen 13年前發布 | 79K 次閱讀 Java 網絡爬蟲

playfish是一個采用java技術，綜合應用多個開源java組件實現的網頁抓取工具，通過XML配置文件實現高度可定制性與可擴展性的網頁抓取工具

應用開源jar包包括httpclient(內容讀取),dom4j（配置文件解析）,jericho（html解析），已經在 war包的lib下。

這個項目目前還很不成熟，但是功能基本都完成了。要求使用者熟悉XML，熟悉正則表達式。目前通過這個工具可以抓取各類論壇，貼吧，以及各類CMS系統。像 Discuz!,phpbb,論壇跟博客的文章，通過本工具都可以輕松抓取。抓取定義完全采用XML，適合Java開發人員使用。

使用方法， 1.下載右邊的.war包導入到eclipse中， 2.使用WebContent/sql下的wcc.sql文件建立一個范例數據庫， 3.修改src包下wcc.core的dbConfig.txt，將用戶名與密碼設置成你自己的mysql用戶名密碼。 4.然后運行SystemCore,運行時候會在控制臺，無參數會執行默認的example.xml的配置文件，帶參數時候名稱為配置文件名。

系統自帶了3個例子，分別為baidu.xml抓取百度知道，example.xml抓取我的javaeye的博客，bbs.xml抓取一個采用 discuz論壇的內容。

項目主頁：http://www.baiduhome.net/lib/view/home/1350031169463

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1350031169463.html

Java 網絡爬蟲

Java網頁抓取工具 PlayFish

相關經驗

相關資訊

相關文檔

目錄