java將html轉換為純文本的代碼

wxx4 11年前發布 | 5K 次閱讀 Java

import java.io.;
import javax.swing.text.html.;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback { StringBuffer s;

public Html2Text() {}

public void parse(Reader in) throws IOException { s = new StringBuffer(); ParserDelegator delegator = new ParserDelegator(); // the third parameter is TRUE to ignore charset directive delegator.parse(in, this, Boolean.TRUE); }

public void handleText(char[] text, int pos) { s.append(text); }

public String getText() { return s.toString(); }

public static void main (String[] args) { try { // the HTML to convert FileReader in = new FileReader("java-new.html"); Html2Text parser = new Html2Text(); parser.parse(in); in.close(); System.out.println(parser.getText()); } catch (Exception e) { e.printStackTrace(); } } }</pre>

 本文由用戶 wxx4 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!