HTML 解析器 Jericho

jopen 12年前發布 | 14K 次閱讀 Java HTML操作類庫

Jericho HTML解析器是一個Java庫,以分析和操縱部分的HTML文件,其中包括服務器端的標簽,而過濾掉任何無法識別的或無效的HTML 。它也提供高層次的HTML表單操作函數。

示例代碼:

import net.htmlparser.jericho.*;
import java.util.*;
import java.io.*;
import java.net.*;

public class Encoding {
    public static void main(String[] args) throws Exception {
        String sourceUrlString="data/test.html";
        if (args.length==0)
          System.err.println("Using default argument of \""+sourceUrlString+'"');
        else
            sourceUrlString=args[0];
        if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;
        System.out.println("\nSource URL:");
        System.out.println(sourceUrlString);
        URL url=new URL(sourceUrlString);
        Source source=new Source(url);
        System.out.println("\nDocument Title:");
        Element titleElement=source.getFirstElement(HTMLElementName.TITLE);
        System.out.println(titleElement!=null ? titleElement.getContent().toString() : "(none)");
        System.out.println("\nSource.getEncoding():");
        System.out.println(source.getEncoding());
        System.out.println("\nSource.getEncodingSpecificationInfo():");
        System.out.println(source.getEncodingSpecificationInfo());
        System.out.println("\nSource.getPreliminaryEncodingInfo():");
        System.out.println(source.getPreliminaryEncodingInfo());
    }
}

項目主頁:http://www.baiduhome.net/lib/view/home/1324433058296

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!