HTML解析引擎：Jumony

jopen 12年前發布 | 75K 次閱讀 Jumony HTML操作類庫

也許很多人會認為，目前的HTML解析器已經足夠了，甚至于簡單的正則，也已經可以滿足操縱HTML文檔的需求。是的，對于互聯網上絕大多數的 HTML文檔，事實上都大部分滿足了XHTML的規范，對于它們的解析，并不需要多么強大的解析器。但是強大的解析器是一回事，而完美的解析器又是另一回事。

Jumony Core首先提供了一個近乎完美的HTML解析引擎，其解析結果無限逼近瀏覽器的解析結果。不論是無結束標簽的元素，可選結束標簽的元素，或是標記屬性，或是CSS選擇器和樣式，一切合法的，不合法的HTML文檔，瀏覽器解析成啥樣，Jumony就解析成啥樣。也就是說，Jumony解析的結果，與瀏覽器解析的結果別無二致，讓你可以再也不用關心HTML文檔是否可以被識別，瀏覽器能看，Jumony就能解。

完美和強大只有一步之遙，但是完美的解析器可以讓你永遠不用關心HTML源文檔。

以下是Jumony解析器所支持的特性不完全列表

特性	例子
孤立的<解析為文本	< a應當解析為< a
孤立的>解析為文本	<a>></a>應當解析為<a>></a>
標記屬性（沒有值的屬性）	<input type="text" checked />
元素丟失結束標簽	<div><a href="test.html">測試鏈接</div>
可選結束標簽元素 "body", "colgroup", "dd", "dt", "head", "html", "li", "option", "p", "tbody", "td", "tfoot", "th", "thead", "tr"	<p>abc<p>123
無結束標簽元素 "area", "base", "basefont", "br", "col", "frame", "hr", "img", "input", "isindex", "link", "meta", "param", "wbr", "bgsound", "spacer", "keygen"	<img src="1.jpg">
CData元素	<script>if ( 1<a ) alert( "<div>" );</script>
"script", "style", "textarea", "title"
預格式化元素	<pre> 前面有空格</pre>
屬性值使用單引號	<a href='#'>
屬性值使用雙引號	<a href="#"
屬性值不使用引號	<a href=#>
屬性值丟失（但有等號）	<a href=>
屬性值前面有空格	<a href= "test.html">
解析HTML聲明	<!DOCTYPE html>

不僅僅是可以從文本中解析HTML，Jumony的API可以從互聯網上直接抓取文檔分析，并根據HTTP頭自動識別編碼：

new JumonyParser().LoadDocument( "http://www.cnblogs.com/" ).Find( ".post_item a.titlelnk" )

而目前僅次于Jumony的HTML解析開源項目HtmlAgilityPack早已停止了更新，這么多年過去了，對于最基本的<form>元素的解析都還存在問題。

二、CSS樣式設置支持

僅僅只是完美解析HTML，并不能帶來多少好處，上面已經說過，事實上大部分的HTML文檔，都可以用二流的解析器甚至是簡單的正則表達式加以分析，那么為什么我們需要Jumony呢？

答案是一個HTML引擎不僅僅是解析DOM結構這么簡單。

考慮這樣的場景：我需要給一個元素的display樣式設置一個none值。在瀏覽器中，我們只需要簡單的 element.style.display = "none"便可以滿足我們的要求。現在，通過解析器已經得到了我們所需要的DOM，但設置樣式還需要進行字符串的拼接么？

不需要，Jumony支持CSS樣式解析，甚至部分CSS樣式縮寫規則也能識別，在Jumony中，給元素設置一個樣式和在瀏覽器中一樣簡單：

element.Style( "display", "none" )

我們再來看這樣的例子：<div style="padding: 5px"></div>，如果我們對這個元素設置padding-left: 0px會怎樣？

在Jumony中，結果會是：<div style="padding-left: 0px; padding-right: 5px; padding-top:5px; padding-bottom: 5px"></div>，看，padding屬性被神奇的自動展開了。

三、CSS 3選擇器支持

CSS選擇器是HTML世界通行的查詢語言，其簡潔有力且被眾多瀏覽器支持。Jumony也支持幾乎完整的CSS3選擇器（除去運行時偽類及偽對象）。借助選擇器，我們可以輕松的在HTML中找到我們感興趣的對象。例如抓取博客園首頁所有文章標題：

new JumonyParser().LoadDocument( "http://www.cnblogs.com/" ).Find( ".post_item a.titlelnk" )

抓取，分析，選擇，一氣呵成，只需要簡單的代碼，我們就能在控制臺輸出我們抓取到的數據：

 foreach( var title = new JumonyParser().LoadDocument( "http://www.cnblogs.com/" ).Find( ".post_item a.titlelnk" ) )
  Console.WriteLine( title.InnerText() );

Jumony支持的CSS3選擇器列表：

選擇器	描述
*	選擇所有元素
p a	選擇子代元素
p>a	選擇子級元素
p+a	選擇相鄰元素
p~a	選擇后繼元素
[attr]	屬性存在選擇
[attr=value]	屬性值精確匹配
[attr~=value]	屬性值近似匹配
[attr^=value]	屬性值開頭匹配
[attr*=value]	屬性值包含匹配
[attr$=value]	屬性值結尾匹配
[attr!=value]	屬性值否定匹配
:not	否定偽類
:only-child	唯一子元素偽類
:only-of-type	唯一類型偽類
:empty	空元素偽類
:nth-child	結構化偽類
:nth-last-child	結構化偽類
:nth-of-type	結構化偽類
:nth-last-of-type	結構化偽類
:first-child	結構化偽類
:last-child	結構化偽類
:first-of-type	結構化偽類
:last-of-type	結構化偽類

四、強大的可擴展性

在Jumony Core 3，為用戶提供了最大的可擴展性，你可以自定義HTML規范，實現自己的解析器，將其他DOM模型嫁接到Jumony API上，發明自己的CSS選擇器偽類，甚至于自己換一套API，例如jQuery風格的。

Jumony Core擁有許多的衍生項目，例如爬取網站，提供jQuery風格的 API、進行網站開發、制作MHT文件、為HAP的解析結果增加CSS選擇器支持等等，這些項目都得益于Jumony Core強大的可擴展性，從而發揮出強大的功能。

項目地址：https://github.com/Ivony/Jumony

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1385810629080.html

Jumony HTML操作類庫

HTML解析引擎：Jumony

二、CSS樣式設置支持

三、CSS 3選擇器支持

四、強大的可擴展性

相關經驗

相關資訊

相關文檔

目錄