Java開源Web數據抽取工具: Web-Harvest

jopen 12年前發布 | 50K 次閱讀 Java 網絡爬蟲

Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。

1. Welcome screen with quick links

Java開源Web數據抽取工具: Web-Harvest

2. Web-Harvest XML editing with auto-completion support (Ctrl + Space)

Java開源Web數據抽取工具: Web-Harvest

3. Defining initial variables that are pushed to the Web-Harvest context before execution starts

Java開源Web數據抽取工具: Web-Harvest

4. Settings dialog

Java開源Web數據抽取工具: Web-Harvest

5. Viewing execution result as XML and testing XPath expression agains it

Java開源Web數據抽取工具: Web-Harvest

6. Viewing download images while execution in progress

Java開源Web數據抽取工具: Web-Harvest

7. Checking attributes of HTTP execution

Java開源Web數據抽取工具: Web-Harvest

8. Debugging

Java開源Web數據抽取工具: Web-Harvest

項目主頁:http://www.baiduhome.net/lib/view/home/1350031305025

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!