• 0推薦
    117K 瀏覽

    jsoup 解析HTML信息

    可通過DOM,CSS以及類jsoup是一款Java的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API, 可通過DOM,CSS以及類似于jQuery的操作...
    0推薦
    55K 瀏覽

    使用Jsoup解析和操作HTML

    jsoup 是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。
    0推薦
    40K 瀏覽

    PHP的HTTP解析擴展:php_http_parser

    php_http_parser 是基于node.js http-parser的PHP擴展,可用于實現純異步PHP程序
    0推薦
    38K 瀏覽

    HTML 處理利器 PostHTML 入門教程

    PostHTML是一個轉換HTML/ XML的工具。 PostHTML本身是非常小的。它只包括一個HTML解析器,一個HTML節點樹API和一個節點樹stringifier。
    jopen 9年前   
    0推薦
    74K 瀏覽

    使用 xpath 解析 html 的解析器:Jsoupxpath

    JsoupXpath 是一款純Java開發的使用xpath解析html的解析器,xpath語法分析與執行完全獨立,html的DOM樹生成借助Jsoup,故命名為JsoupXpath.為了在jav...
    0推薦
    43K 瀏覽

    用Ruby編寫的XML/HTML解析器:Oga

    Oga是一個采用Ruby編寫的XML/HTML解析器。它提供了一個易于使用的API來解析,修改和查詢文檔(使用XPath表達式)。Oga不需要系統庫如libxml,使得它能夠更簡便和更快的安裝在...
    jopen 10年前   
    0推薦
    88K 瀏覽

    用于解析HTML的.NET庫:AngleSharp

    AngleSharp是一個.NET庫,讓你能夠解析基于尖括號的超文本如:HTML, SVG, 和MathML。AngleSharp的一個重要方面是,CSS也可以解析。該解析器構建建立在官方W3C規范之上。
    jopen 10年前   
    0推薦
    41K 瀏覽

    在命令行解析HTML:pup

    pup是一個命令行工具,用于處理HTML。它從標準輸入讀取,打印到標準輸出,并允許用戶使用CSS選擇器過濾頁面的某些部分。
    jopen 10年前   
    0推薦
    59K 瀏覽

    Java網頁信息抽取組件:HtmlExtractor

    HtmlExtractor是一個Java實現的基于模板的通用的網頁結構化信息精準抽取組件,本身并不包含爬蟲功能,但可被爬蟲或其他程序調用以便更精準地對網頁結構化信息進行抽取。
    0推薦
    49K 瀏覽

    處理HTML和XML的Python庫:lxml

    lxml是Python語言中功能最豐富,最容易使用的XML和HTML文檔處理庫。它處理速度非常快,同時對內存十分友好,據統計已有超過兩百萬次的下載量。
    jopen 10年前   
    0推薦
    90K 瀏覽

    提取正文內容的Java類庫:BoilerPipe

    BoilerPipe是一個開源java類庫,能從html中剔除廣告和其他附加信息,提取出目標信息,如正文內容。可以通過配置不同的extractor來extract目標內容。
    jopen 10年前   
    0推薦
    45K 瀏覽

    網頁去噪,獲取網頁正文相關開源項目

    網頁去噪需要去掉與網頁內表達內容不相關的文字,如廣告,評論等等。現在對于博客、新聞類的網頁去噪已經有很多的應用,比如常用的印象筆記、有道筆記就用到了相關的技術。
    jopen 10年前   
    0推薦
    39K 瀏覽

    XPath 語法

    XPath 使用路徑表達式來選取 XML 文檔中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。
    jopen 10年前   
    0推薦
    43K 瀏覽

    Objective-C的HTML解析庫集合

    Google開源的Gumbo,用的OC對Gumbo的一個封裝OCGumbo。 一個功能點就是想根據OCGumbo里面的各種Query、Find方法寫一個自動解析器,解析某一頁面的時候只需要讀取一...
    0推薦
    44K 瀏覽

    提取HTML信息的 Python 模塊:scrape.py

    scrape.py是從網頁抓取內容的Python模塊。使用它,您可以輕松地抓取頁面,跟蹤鏈接,并提交表格,Cookies,重定向和SSL自動處理。 (對于SSL,你要么需要一個帶socket.s...
    jopen 10年前   
    0推薦
    75K 瀏覽

    HTML解析引擎:Jumony

    Jumony Core首先提供了一個近乎完美的HTML解析引擎,其解析結果無限逼近瀏覽器的解析結果。不論是無結束標簽的元素,可選結束標簽的元素,或是標記屬性,或是CSS選擇器和樣式,一切合法的,...
    jopen 11年前   
    0推薦
    94K 瀏覽

    類似于JSoup的Net版HTML解析器:NSoup

    NSoup是 jsoup (http://jsoup.org) HTML 解析器的一個.NET移植。
    jopen 11年前   
    0推薦
    76K 瀏覽

    使用lxml抓取網頁

    lxml登場,使用類似lxml的工具,你可以把一個HTML文件轉換為XML文件。畢竟,一個XHTML文件屬于XML文件的一種。就我們知道的網站作者很少關心HTML文件的規范。大部分的網站有不完整...
    jopen 11年前   
    0推薦
    69K 瀏覽

    HTML 解析/提取器:woody

    woody 是一款 Java 的HTML 解析/提取器,用法非常類似 webmagic, 是對其抽取模板完全重寫,之所有單獨提取出來是因為為來更好可重用。
    jopen 11年前   
    0推薦
    41K 瀏覽

    HTML抽取器:Xsoup

    Xsoup是基于Jsoup開發的HTML抽取器,提供了XPath支持。 相比另一個常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有較大的性能優勢,解析時間和抽取時間...
    jopen 11年前   
    1 2 3 4

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色