Java開源的HTML 解析器，jsoup 1.6.3 發布

jopen 13年前發布 | 14K 次閱讀 jsoup

jsoup 是一款 Java 的HTML 解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于JQuery的操作方法來取出和操作數據。

scrape and parse HTML from a URL, file, or string
find and extract data, using DOM traversal or CSS selectors
manipulate the HTML elements, attributes, and text
clean user-submitted content against a safe white-list, to prevent XSS attacks
output tidy HTML

jsoup 1.6.3 發布，該版本重構對 Google App Engine 支持的代碼，同時修復了一些解析的問題。

jsoup的主要功能如下：

從一個URL，文件或字符串中解析HTML；
使用DOM或CSS選擇器來查找、取出數據；
可操作HTML元素、屬性、文本；

示例代碼：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

中文手冊： http://www.baiduhome.net/jsoup

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/8d79d0

jsoup

Java開源的HTML 解析器，jsoup 1.6.3 發布

相關資訊

相關經驗

相關文檔