登錄
注冊
首頁
項目
經驗
代碼
文庫
問答
博客
資訊
HTML操作類庫
(共
64
篇經驗)
0
推薦
117K
瀏覽
jsoup 解析HTML信息
可通過DOM,CSS以及類jsoup是一款Java的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API, 可通過DOM,CSS以及類似于jQuery的操作...
StaSloane
8年前
HTML操作類庫
0
推薦
55K
瀏覽
使用Jsoup解析和操作HTML
jsoup 是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。
EvieReinhar
8年前
HTML操作類庫
0
推薦
40K
瀏覽
PHP的HTTP解析擴展:php_http_parser
php_http_parser 是基于node.js http-parser的PHP擴展,可用于實現純異步PHP程序
jopen
9年前
HTML操作類庫
php_http_parser
0
推薦
38K
瀏覽
HTML 處理利器 PostHTML 入門教程
PostHTML是一個轉換HTML/ XML的工具。 PostHTML本身是非常小的。它只包括一個HTML解析器,一個HTML節點樹API和一個節點樹stringifier。
jopen
9年前
HTML操作類庫
PostHTML
0
推薦
74K
瀏覽
使用 xpath 解析 html 的解析器:Jsoupxpath
JsoupXpath 是一款純Java開發的使用xpath解析html的解析器,xpath語法分析與執行完全獨立,html的DOM樹生成借助Jsoup,故命名為JsoupXpath.為了在jav...
gwxd
9年前
HTML操作類庫
Jsoupxpath
0
推薦
43K
瀏覽
用Ruby編寫的XML/HTML解析器:Oga
Oga是一個采用Ruby編寫的XML/HTML解析器。它提供了一個易于使用的API來解析,修改和查詢文檔(使用XPath表達式)。Oga不需要系統庫如libxml,使得它能夠更簡便和更快的安裝在...
jopen
10年前
HTML操作類庫
Oga
0
推薦
88K
瀏覽
用于解析HTML的.NET庫:AngleSharp
AngleSharp是一個.NET庫,讓你能夠解析基于尖括號的超文本如:HTML, SVG, 和MathML。AngleSharp的一個重要方面是,CSS也可以解析。該解析器構建建立在官方W3C規范之上。
jopen
10年前
HTML操作類庫
AngleSharp
0
推薦
41K
瀏覽
在命令行解析HTML:pup
pup是一個命令行工具,用于處理HTML。它從標準輸入讀取,打印到標準輸出,并允許用戶使用CSS選擇器過濾頁面的某些部分。
jopen
10年前
HTML操作類庫
pup
0
推薦
59K
瀏覽
Java網頁信息抽取組件:HtmlExtractor
HtmlExtractor是一個Java實現的基于模板的通用的網頁結構化信息精準抽取組件,本身并不包含爬蟲功能,但可被爬蟲或其他程序調用以便更精準地對網頁結構化信息進行抽取。
jopen
10年前
HtmlExtractor
HTML操作類庫
0
推薦
49K
瀏覽
處理HTML和XML的Python庫:lxml
lxml是Python語言中功能最豐富,最容易使用的XML和HTML文檔處理庫。它處理速度非常快,同時對內存十分友好,據統計已有超過兩百萬次的下載量。
jopen
10年前
HTML操作類庫
lxml
0
推薦
90K
瀏覽
提取正文內容的Java類庫:BoilerPipe
BoilerPipe是一個開源java類庫,能從html中剔除廣告和其他附加信息,提取出目標信息,如正文內容。可以通過配置不同的extractor來extract目標內容。
jopen
10年前
HTML操作類庫
BoilerPipe
0
推薦
45K
瀏覽
網頁去噪,獲取網頁正文相關開源項目
網頁去噪需要去掉與網頁內表達內容不相關的文字,如廣告,評論等等。現在對于博客、新聞類的網頁去噪已經有很多的應用,比如常用的印象筆記、有道筆記就用到了相關的技術。
jopen
10年前
HTML操作類庫
正文
0
推薦
39K
瀏覽
XPath 語法
XPath 使用路徑表達式來選取 XML 文檔中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。
jopen
10年前
HTML操作類庫
XPath
0
推薦
43K
瀏覽
Objective-C的HTML解析庫集合
Google開源的Gumbo,用的OC對Gumbo的一個封裝OCGumbo。 一個功能點就是想根據OCGumbo里面的各種Query、Find方法寫一個自動解析器,解析某一頁面的時候只需要讀取一...
jopen
10年前
Objective-C
HTML操作類庫
0
推薦
44K
瀏覽
提取HTML信息的 Python 模塊:scrape.py
scrape.py是從網頁抓取內容的Python模塊。使用它,您可以輕松地抓取頁面,跟蹤鏈接,并提交表格,Cookies,重定向和SSL自動處理。 (對于SSL,你要么需要一個帶socket.s...
jopen
10年前
HTML操作類庫
scrape.py
0
推薦
75K
瀏覽
HTML解析引擎:Jumony
Jumony Core首先提供了一個近乎完美的HTML解析引擎,其解析結果無限逼近瀏覽器的解析結果。不論是無結束標簽的元素,可選結束標簽的元素,或是標記屬性,或是CSS選擇器和樣式,一切合法的,...
jopen
11年前
HTML操作類庫
Jumony
0
推薦
94K
瀏覽
類似于JSoup的Net版HTML解析器:NSoup
NSoup是 jsoup (http://jsoup.org) HTML 解析器的一個.NET移植。
jopen
11年前
HTML操作類庫
NSoup
0
推薦
76K
瀏覽
使用lxml抓取網頁
lxml登場,使用類似lxml的工具,你可以把一個HTML文件轉換為XML文件。畢竟,一個XHTML文件屬于XML文件的一種。就我們知道的網站作者很少關心HTML文件的規范。大部分的網站有不完整...
jopen
11年前
HTML操作類庫
lxml
0
推薦
69K
瀏覽
HTML 解析/提取器:woody
woody 是一款 Java 的HTML 解析/提取器,用法非常類似 webmagic, 是對其抽取模板完全重寫,之所有單獨提取出來是因為為來更好可重用。
jopen
11年前
HTML操作類庫
woody
0
推薦
41K
瀏覽
HTML抽取器:Xsoup
Xsoup是基于Jsoup開發的HTML抽取器,提供了XPath支持。 相比另一個常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有較大的性能優勢,解析時間和抽取時間...
jopen
11年前
HTML操作類庫
Xsoup
1
2
3
4
經驗分享,提升職場影響力
投稿
熱門問答
熱門文檔
sesese色