jsoup 解析HTML信息

StaSloane 10年前發布 | 117K 次閱讀 HTML操作類庫

來自： http://blog.csdn.net/itmyhome1990/article/details/50676147

jsoup簡介

jsoup是一款Java的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，

可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作數據。

jsoup的主要功能如下

1、從一個URL，文件或字符串中解析HTML
2、使用DOM或CSS選擇器來查找、取出數據
3、可操作HTML元素、屬性、文本

jsoup的主要類層次結構如圖所示：

這里寫圖片描述

文檔輸入

jsoup可以從包括字符串、URL地址以及本地文件來加載HTML文檔，并生成Document對象實例。

// 直接從字符串中輸入 HTML 文檔
String html = "<html><head><title>learn jsoup</title></head>"

+ "<body id='body'><p>Parse and traverse an HTML document.</p></body></html>";

Document doc = Jsoup.parse(html);
// 從URL直接加載 HTML 文檔
Document doc = Jsoup.connect(");
String title = doc.title();

// 從文件中加載HTML文檔
File input = new File("D:/index.html");
Document doc = Jsoup.parse(input, "UTF-8","第三種方式parse方法也可以不指定第三個參數，因為HTML文檔中會有很多例如鏈接、圖片以及所引用的外部腳本、css文件等，

而第三個名為baseURL的參數的意思就是當HTML文檔使用相對路徑方式引用外部文件時，
jsoup會自動為這些URL加上一個前綴，也就是這個 baseURL。
例如 <a href=/project>itmyhome</a> 會被轉換成 <a href=http://itmyhome.com/project>itmyhome</a>。
數據抽取
使用DOM方法來遍歷一個文檔
String html = "<html><head><title>learn jsoup</title></head>"

    + "<body id='content'><a href='itmyhome.com'>hello</a>"
    + "<a href='blog.itmyhome.com'>jsoup</a></body></html>";


Document doc = Jsoup.parse(html);
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
    String linkHref = link.attr("href");
    String linkText = link.text();

System.out.println(linkHref + ", " + linkText);

}</pre> 
 
打印

itmyhome.com, hello
blog.itmyhome.com, jsoup 
 說明

Elements這個對象提供了一系列類似于DOM的方法來查找元素，抽取并處理其中的數據。具體如下：
查找元素
 
  getElementById(String id)


  getElementsByTag(String tag)


  getElementsByClass(String className)


  getElementsByAttribute(String key) (and related methods)


  Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()


  Graph: parent(), children(), child(int index)


 
元素數據
 
  attr(String key)獲取屬性 attr(String key, String value)設置屬性


  attributes()獲取所有屬性


  id(), className() and classNames()


  text()獲取文本內容text(String value) 設置文本內容


  html()獲取元素內HTMLhtml(String value)設置元素內的HTML內容


  outerHtml()獲取元素外HTML內容


  data()獲取數據內容（例如：script和style標簽)


  tag() and tagName()


 
操作HTML和文本
 
  append(String html), prepend(String html)


  appendText(String text), prependText(String text)


  appendElement(String tagName), prependElement(String tagName)


  html(String value)


 
使用選擇器語法來查找元素
Document doc = Jsoup.connect("http://itmyhome.com/").get();
Elements links = doc.select("a[href]"); // 帶有href屬性的a元素
Elements pngs = doc.select("img[src$=.png]");// 擴展名為.png的圖片
Element icons = doc.select("span.icon").first();// class等于icon的span標簽
Elements resultLinks = doc.select("#header p"); // id為header元素之后的p元素 
 從以上可以看出jsoup使用跟jQuery一模一樣的選擇器對元素進行檢索，jsoup的選擇器還支持表達式功能

下表是jsoup選擇器的所有語法詳細列表。
表1. 基本用法：
 
  
    
     tagname 

     使用標簽名來定位，例如 a 

   

    
     ns|tag 

     使用命名空間的標簽定位，例如 fb:name 來查找 <fb:name> 元素 

   

    
     #id 

     使用元素 id 定位，例如 #logo 

   

    
     .class 

     使用元素的 class 屬性定位，例如 .head 

   

    
     [attribute] 

     使用元素的屬性進行定位，例如 [href] 表示檢索具有 href 屬性的所有元素 

   

    
     [^attr] 

     使用元素的屬性名前綴進行定位，例如 [^data-] 用來查找 HTML5 的 dataset 屬性 

   

    
     [attr=value] 

     使用屬性值進行定位，例如 [width=500] 定位所有 width 屬性值為 500 的元素 

   

    
     [attr^=value], [attr$=value], [attr*=value] 

     這三個語法分別代表，屬性以 value 開頭、結尾以及包含 

   

    
     [attr~=regex] 

     使用正則表達式進行屬性值的過濾，例如 img[src~=(?i)\.(png|jpe?g)] 

   

    
     * 

     定位所有元素 

   

  
 
以上是最基本的選擇器語法，這些語法也可以組合起來使用，下面是 jsoup 支持的組合用法：
表2：組合用法：
 
  
    
     el#id 

     定位 id 值某個元素，例如 a#logo -> <a id=logo href= … > 

   

    
     el.class 

     定位 class 為指定值的元素，例如 div.head -> <div class=head>xxxx</div> 

   

    
     el[attr] 

     定位所有定義了某屬性的元素，例如 a[href] 

   

    
     以上三個任意組合 

     例如 a[href]#logo 、a[name].outerlink 

   

    
     ancestor child 

     這五種都是元素之間組合關系的選擇器語法，其中包括父子關系、合并關系和層次關系。 

   

    
     parent > child 

   

    
     siblingA + siblingB 

   

    
     siblingA ~ siblingX 

   

    
     el, el, el 

   

  
 
除了一些基本的語法以及進行組合外，jsoup還支持使用表達式進行元素過濾選擇。下面是jsoup支持的所有表達式一覽表：
表3：表達式：
 
  
    
     :lt(n) 

     例如 td:lt(3) 表示 小于三列 

   

    
     :gt(n) 

     div p:gt(2) 表示 div 中包含 2 個以上的 p 

   

    
     :eq(n) 

     form input:eq(1) 表示只包含一個 input 的表單 

   

    
     :has(seletor) 

     div:has(p) 表示包含了 p 元素的 div 

   

    
     :not(selector) 

     div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表 

   

    
     :contains(text) 

     包含某文本的元素，不區分大小寫，例如 p:contains(oschina) 

   

    
     :containsOwn(text) 

     文本信息完全等于指定條件的過濾 

   

    
     :matches(regex) 

     使用正則表達式進行文本過濾：div:matches((?i)login) 

   

    
     :matchesOwn(regex) 

     使用正則表達式找到自身的文本 

   

  
 
從元素抽取屬性，文本和HTML
 
  要取得一個屬性的值，可以使用Node.attr(String key) 方法


  對于一個元素中的文本，可以使用Element.text()方法


  對于要取得元素或屬性中的HTML內容,可以使用Element.html(),或Node.outerHtml()方法


 
示例:
String html = "<p>my <a href='; link.</p>";
Document doc = Jsoup.parse(html);// 解析HTML字符串返回一個Document實現
Element link = doc.select("a").first();// 查找第一個a元素
String text = doc.body().text(); // "my blog link" 取得字符串中的文本
String linkHref = link.attr("href"); // "
String linkOuterH = link.outerHtml();// "<a href="
System.out.println(text);System.out.println(linkHref);
System.out.println(linkText);System.out.println(linkOuterH);
System.out.println(linkInnerH);</pre> 
 
打印：

my blog link.
http://itmyhome.com/
blog
<a ><b>blog</b></a>
<b>blog</b> 
 說明

上述方法是元素數據訪問的核心辦法。此外還其它一些方法可以使用：
 
  Element.id()


  Element.tagName()


  Element.className() and Element.hasClass(String className)


 
修改數據
在解析文檔的同時，我們可能會需要對文檔中的某些元素進行修改，例如我們可以為文檔中的所有圖片增加可點擊鏈接、修改鏈接地址或者是修改文本等。
下面是一些簡單的例子：
doc.select("div.comments a").attr("rel", "nofollow"); // 為所有鏈接增加 rel=nofollow 屬性
doc.select("div.comments a").addClass("mylinkclass"); // 為所有鏈接增加 class=mylinkclass 屬性
doc.select("img").removeAttr("onclick"); // 刪除所有圖片的 onclick 屬性
doc.select("input[type=text]").val(""); // 清空所有文本輸入框中的文本 
 道理很簡單，你只需要利用jsoup的選擇器找出元素，然后就可以通過以上的方法來進行修改，

修改完直接調用 Element(s)的 html()方法就可以獲取修改完的HTML文檔。
HTML文檔清理
在做網站的時候，經常會提供用戶評論的功能。有些不壞好意的用戶，會搞一些腳本到評論內容中，
而這些腳本可能會破壞整個頁面的行為，更嚴重的是獲取一些機要信息，例如XSS跨站點攻擊之類的。
使用jsoup HTML Cleaner 方法進行清除，看看下面這段代碼：
String unsafe = "<p><a  onclick='stealCookies()'>itmyhome</a></p>";
String safe = Jsoup.clean(unsafe, Whitelist.basic());
System.out.println(safe); //輸出 : <p><a  rel="nofollow">itmyhome</a></p> 
 jsoup使用一個Whitelist類用來對HTML文檔進行過濾，該類提供幾個常用方法：

 
  
    
     none() 

     只允許包含文本信息 

   

    
     basic() 

     允許的標簽包括：a, b, blockquote, br, cite, code, dd, dl, dt, em, i, li, ol, p, pre, q, small, strike, strong, sub, sup, u, ul, 以及合適的屬性 

   

    
     simpleText() 

     只允許 b, em, i, strong, u 這些標簽 

   

    
     basicWithImages() 

     在 basic() 的基礎上增加了圖片 

   

    
     relaxed() 

     這個過濾器允許的標簽最多，包括：a, b, blockquote, br, caption, cite, code, col, colgroup, dd, dl, dt, em, h1, h2, h3, h4, h5, h6, i, img, li, ol, p, pre, q, small, strike, strong, sub, sup, table, tbody, td, tfoot, th, thead, tr, u, ul 

   

  
 


 

 作者：itmyhome
</div>

本文由用戶 StaSloane 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1455717177855.html

HTML操作類庫

jsoup 解析HTML信息

jsoup簡介

jsoup的主要功能如下

文檔輸入

相關經驗

相關資訊

相關文檔

目錄

tagname	使用標簽名來定位，例如 a
ns\|tag	使用命名空間的標簽定位，例如 fb:name 來查找 <fb:name> 元素
#id	使用元素 id 定位，例如 #logo
.class	使用元素的 class 屬性定位，例如 .head
[attribute]	使用元素的屬性進行定位，例如 [href] 表示檢索具有 href 屬性的所有元素
[^attr]	使用元素的屬性名前綴進行定位，例如 [^data-] 用來查找 HTML5 的 dataset 屬性
[attr=value]	使用屬性值進行定位，例如 [width=500] 定位所有 width 屬性值為 500 的元素
[attr^=value], [attr$=value], [attr*=value]	這三個語法分別代表，屬性以 value 開頭、結尾以及包含
[attr~=regex]	使用正則表達式進行屬性值的過濾，例如 img[src~=(?i)\.(png\|jpe?g)]
*	定位所有元素

el#id	定位 id 值某個元素，例如 a#logo -> <a id=logo href= … >
el.class	定位 class 為指定值的元素，例如 div.head -> <div class=head>xxxx</div>
el[attr]	定位所有定義了某屬性的元素，例如 a[href]
以上三個任意組合	例如 a[href]#logo 、a[name].outerlink
ancestor child	這五種都是元素之間組合關系的選擇器語法，其中包括父子關系、合并關系和層次關系。
parent > child
siblingA + siblingB
siblingA ~ siblingX
el, el, el

:lt(n)	例如 td:lt(3) 表示小于三列
:gt(n)	div p:gt(2) 表示 div 中包含 2 個以上的 p
:eq(n)	form input:eq(1) 表示只包含一個 input 的表單
:has(seletor)	div:has(p) 表示包含了 p 元素的 div
:not(selector)	div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
:contains(text)	包含某文本的元素，不區分大小寫，例如 p:contains(oschina)
:containsOwn(text)	文本信息完全等于指定條件的過濾
:matches(regex)	使用正則表達式進行文本過濾：div:matches((?i)login)
:matchesOwn(regex)	使用正則表達式找到自身的文本

none()	只允許包含文本信息
basic()	允許的標簽包括：a, b, blockquote, br, cite, code, dd, dl, dt, em, i, li, ol, p, pre, q, small, strike, strong, sub, sup, u, ul, 以及合適的屬性
simpleText()	只允許 b, em, i, strong, u 這些標簽
basicWithImages()	在 basic() 的基礎上增加了圖片
relaxed()	這個過濾器允許的標簽最多，包括：a, b, blockquote, br, caption, cite, code, col, colgroup, dd, dl, dt, em, h1, h2, h3, h4, h5, h6, i, img, li, ol, p, pre, q, small, strike, strong, sub, sup, table, tbody, td, tfoot, th, thead, tr, u, ul