HTML 解析器 Jericho
Jericho HTML解析器是一個Java庫,以分析和操縱部分的HTML文件,其中包括服務器端的標簽,而過濾掉任何無法識別的或無效的HTML 。它也提供高層次的HTML表單操作函數。
示例代碼:
import net.htmlparser.jericho.*; import java.util.*; import java.io.*; import java.net.*; public class Encoding { public static void main(String[] args) throws Exception { String sourceUrlString="data/test.html"; if (args.length==0) System.err.println("Using default argument of \""+sourceUrlString+'"'); else sourceUrlString=args[0]; if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString; System.out.println("\nSource URL:"); System.out.println(sourceUrlString); URL url=new URL(sourceUrlString); Source source=new Source(url); System.out.println("\nDocument Title:"); Element titleElement=source.getFirstElement(HTMLElementName.TITLE); System.out.println(titleElement!=null ? titleElement.getContent().toString() : "(none)"); System.out.println("\nSource.getEncoding():"); System.out.println(source.getEncoding()); System.out.println("\nSource.getEncodingSpecificationInfo():"); System.out.println(source.getEncodingSpecificationInfo()); System.out.println("\nSource.getPreliminaryEncodingInfo():"); System.out.println(source.getPreliminaryEncodingInfo()); } }
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!