從源代碼里提取中文字符串的java類
工作中需要優化代碼里的中文警示語和異常信息,實在比較多,所以就寫了個程序專門從代碼里提取中文字符串。
import java.io.; import java.util.; import java.util.regex.Matcher; import java.util.regex.Pattern;/**
搜索字符串并輸出到控制臺 */ public class ExtractStr { public static String getHelpString(String[] args){
String result = String.format("%s [path]", new Object[]{"a"}); return result;
}
private void getFiles(String rootPath, final String fileExt, List<File> fileList){
File f =new File(rootPath); File[] list=f.listFiles(new FileFilter() { @Override public boolean accept(File f) { boolean ret = f.isDirectory() || (f.isFile() && f.getName().endsWith(fileExt)); return ret; } }); for(File fn : list){ if (fn.isDirectory()){ this.getFiles(fn.getAbsolutePath(), fileExt, fileList); }else{ fileList.add(fn); } }
}
public List<File> run(String rootPath, String fileExt){
List<File> result = new LinkedList<File>(); this.getFiles(rootPath, fileExt, result); return result;
}
public List<String> parserSourceFile(List<String> patternList, File file, int miniCharCount) throws Exception {
List<String> result = new LinkedList<String>(); BufferedReader r = new BufferedReader(new FileReader(file)); char[] buffer = new char[(int)file.length()]; r.read(buffer, 0, (int)file.length()); String text=new String(buffer, 0, buffer.length); for(String patternStr : patternList){ //Pattern pattern = Pattern.compile("\"(.*?)\""); Pattern pattern = Pattern.compile(patternStr); Matcher matchers= pattern.matcher(text); while(matchers.find()){ String t=matchers.group(); if (t.length()>=miniCharCount) result.add(t); } } return result;
}
public static void main(String []args){
if (args.length==0){ StringBuilder sb = new StringBuilder() .append("未傳入需要搜索的有效的源代碼路徑") .append("\n") .append(ExtractStr.getHelpString(args)); System.out.println(sb.toString()); System.exit(1); } List<String> searchFolders=new ArrayList<String>(100); for(int i=0; i<=args.length-1;i++){ File f=new File(args[i]); if (!f.isDirectory() || !f.exists()) continue; searchFolders.add(f.getAbsolutePath()); } List<String> patternList = new LinkedList<String>(); patternList.add("'([\\u4E00-\\u9FA5]+)'"); patternList.add("\"([\\u4E00-\\u9FA5]+)\""); ExtractStr es = new ExtractStr(); List<File> fileList = new ArrayList<File>(1000); for(String sarchFolder : searchFolders){ List<File> t=es.run(sarchFolder, ".php"); fileList.addAll(t); } Set<String> outList=new HashSet<String>(); for(File f : fileList){ try{ List<String> items=es.parserSourceFile(patternList, f, 12); outList.addAll(items); }catch(Exception e){ e.printStackTrace(); } } for(String str : outList){ System.out.println(str); }
} }</pre>
對于拼接字符串的中文輸出支持的不算好,而且也對中文的長度有限制(最少12個字符)
本文由用戶 ph44 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!