Java開源Web數據抽取工具: Web-Harvest
Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。
1. Welcome screen with quick links

2. Web-Harvest XML editing with auto-completion support (Ctrl + Space)

3. Defining initial variables that are pushed to the Web-Harvest context before execution starts

4. Settings dialog

5. Viewing execution result as XML and testing XPath expression agains it

6. Viewing download images while execution in progress

7. Checking attributes of HTTP execution

8. Debugging

本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!