Java網頁抓取工具 PlayFish
playfish是一個采用java技術,綜合應用多個開源java組件實現的網頁抓取工具,通過XML配置文件實現高度可定制性與可擴展性的網頁抓取工具
應用開源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經在 war包的lib下。
這個項目目前還很不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過這個工具可以抓取各類論壇,貼吧,以及各類CMS系統。像 Discuz!,phpbb,論壇跟博客的文章,通過本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開發人員使用。
使用方法, 1.下載右邊的.war包導入到eclipse中, 2.使用WebContent/sql下的wcc.sql文件建立一個范例數據庫, 3.修改src包下wcc.core的dbConfig.txt,將用戶名與密碼設置成你自己的mysql用戶名密碼。 4.然后運行SystemCore,運行時候會在控制臺,無參數會執行默認的example.xml的配置文件,帶參數時候名稱為配置文件名。
系統自帶了3個例子,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個采用 discuz論壇的內容。
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!