HTML操作類庫 - 開源經驗 - 第1頁

0推薦

117K 瀏覽

可通過DOM，CSS以及類jsoup是一款Java的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作...

StaSloane 10年前

HTML操作類庫

0推薦

55K 瀏覽

jsoup 是一款 Java 的HTML 解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作數據。

EvieReinhar 10年前

HTML操作類庫

0推薦

40K 瀏覽

php_http_parser 是基于node.js http-parser的PHP擴展，可用于實現純異步PHP程序

jopen 10年前

HTML操作類庫 php_http_parser

0推薦

38K 瀏覽

PostHTML是一個轉換HTML/ XML的工具。 PostHTML本身是非常小的。它只包括一個HTML解析器，一個HTML節點樹API和一個節點樹stringifier。

jopen 10年前

HTML操作類庫 PostHTML

0推薦

74K 瀏覽

JsoupXpath 是一款純Java開發的使用xpath解析html的解析器，xpath語法分析與執行完全獨立，html的DOM樹生成借助Jsoup，故命名為JsoupXpath.為了在jav...

gwxd 10年前

HTML操作類庫 Jsoupxpath

0推薦

43K 瀏覽

Oga是一個采用Ruby編寫的XML/HTML解析器。它提供了一個易于使用的API來解析，修改和查詢文檔（使用XPath表達式）。Oga不需要系統庫如libxml，使得它能夠更簡便和更快的安裝在...

jopen 11年前

HTML操作類庫 Oga

0推薦

88K 瀏覽

AngleSharp是一個.NET庫，讓你能夠解析基于尖括號的超文本如：HTML, SVG, 和MathML。AngleSharp的一個重要方面是，CSS也可以解析。該解析器構建建立在官方W3C規范之上。

jopen 11年前

HTML操作類庫 AngleSharp

0推薦

41K 瀏覽

pup是一個命令行工具，用于處理HTML。它從標準輸入讀取，打印到標準輸出，并允許用戶使用CSS選擇器過濾頁面的某些部分。

jopen 11年前

HTML操作類庫 pup

0推薦

59K 瀏覽

HtmlExtractor是一個Java實現的基于模板的通用的網頁結構化信息精準抽取組件，本身并不包含爬蟲功能，但可被爬蟲或其他程序調用以便更精準地對網頁結構化信息進行抽取。

jopen 11年前

HtmlExtractor HTML操作類庫

0推薦

49K 瀏覽

lxml是Python語言中功能最豐富，最容易使用的XML和HTML文檔處理庫。它處理速度非常快，同時對內存十分友好，據統計已有超過兩百萬次的下載量。

jopen 11年前

HTML操作類庫 lxml

0推薦

90K 瀏覽

BoilerPipe是一個開源java類庫，能從html中剔除廣告和其他附加信息，提取出目標信息，如正文內容。可以通過配置不同的extractor來extract目標內容。

jopen 11年前

HTML操作類庫 BoilerPipe

0推薦

45K 瀏覽

網頁去噪需要去掉與網頁內表達內容不相關的文字，如廣告，評論等等。現在對于博客、新聞類的網頁去噪已經有很多的應用，比如常用的印象筆記、有道筆記就用到了相關的技術。

jopen 11年前

HTML操作類庫正文

0推薦

39K 瀏覽

XPath 使用路徑表達式來選取 XML 文檔中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。

jopen 12年前

HTML操作類庫 XPath

0推薦

43K 瀏覽

Google開源的Gumbo，用的OC對Gumbo的一個封裝OCGumbo。一個功能點就是想根據OCGumbo里面的各種Query、Find方法寫一個自動解析器，解析某一頁面的時候只需要讀取一...

jopen 12年前

Objective-C HTML操作類庫

0推薦

44K 瀏覽

scrape.py是從網頁抓取內容的Python模塊。使用它，您可以輕松地抓取頁面，跟蹤鏈接，并提交表格，Cookies，重定向和SSL自動處理。（對于SSL，你要么需要一個帶socket.s...

jopen 12年前

HTML操作類庫 scrape.py

0推薦

75K 瀏覽

Jumony Core首先提供了一個近乎完美的HTML解析引擎，其解析結果無限逼近瀏覽器的解析結果。不論是無結束標簽的元素，可選結束標簽的元素，或是標記屬性，或是CSS選擇器和樣式，一切合法的，...

jopen 12年前

HTML操作類庫 Jumony

0推薦

94K 瀏覽

NSoup是 jsoup (http://jsoup.org) HTML 解析器的一個.NET移植。

jopen 12年前

HTML操作類庫 NSoup

0推薦

76K 瀏覽

lxml登場，使用類似lxml的工具，你可以把一個HTML文件轉換為XML文件。畢竟，一個XHTML文件屬于XML文件的一種。就我們知道的網站作者很少關心HTML文件的規范。大部分的網站有不完整...

jopen 12年前

HTML操作類庫 lxml

0推薦

69K 瀏覽

woody 是一款 Java 的HTML 解析/提取器，用法非常類似 webmagic, 是對其抽取模板完全重寫，之所有單獨提取出來是因為為來更好可重用。

jopen 12年前

HTML操作類庫 woody

0推薦

41K 瀏覽

Xsoup是基于Jsoup開發的HTML抽取器，提供了XPath支持。相比另一個常用的基于XPath的HTML抽取器HtmlCleaner，Xsoup有較大的性能優勢，解析時間和抽取時間...

jopen 12年前

HTML操作類庫 Xsoup

jsoup 解析HTML信息

使用Jsoup解析和操作HTML

PHP的HTTP解析擴展：php_http_parser

HTML 處理利器 PostHTML 入門教程

使用 xpath 解析 html 的解析器：Jsoupxpath

用Ruby編寫的XML/HTML解析器：Oga

用于解析HTML的.NET庫：AngleSharp

在命令行解析HTML：pup

Java網頁信息抽取組件：HtmlExtractor

處理HTML和XML的Python庫：lxml

提取正文內容的Java類庫：BoilerPipe

網頁去噪，獲取網頁正文相關開源項目

XPath 語法

Objective-C的HTML解析庫集合

提取HTML信息的 Python 模塊：scrape.py

HTML解析引擎：Jumony

類似于JSoup的Net版HTML解析器：NSoup

使用lxml抓取網頁

HTML 解析/提取器：woody

HTML抽取器：Xsoup

熱門問答

熱門文檔