HtmlUnit 模擬瀏覽器以及Cookie使用示例

fireRabit 9年前發布 | 2K 次閱讀 Java 高防服務器 ddos cc

最近寫爬蟲的時候，利用httpclient抓取一些網頁出現一些問題，就是抓取回來的內容都含有大量的加密文本（通過javascript腳本），無法獲得真實的內容（也就是用瀏覽器打開網頁呈現的內容）。所以，一般需要配合js引擎來解決這個問題，搜索了下，發現htmlunit這個工具就可以幫忙。了解和使用過程中，發現這是一個非常牛逼的開源工具，雖然名氣比httpclient小，但是實力絕對不容小覷。閑話少說。目前htmlunit的最新版本是2.15，可以從這里下載：http://sourceforge.net/projects/htmlunit/files/htmlunit/2.15/

String  url="http://xxxx.xx/";//想采集的網址
            String refer="http://xxx.xx/";
            URL link=new URL(url); 
            WebClient wc=new WebClient();
            WebRequest request=new WebRequest(link); 
            request.setCharset("UTF-8");
            request.setProxyHost("x.120.120.x");
            request.setProxyPort(8080);
            request.setAdditionalHeader("Referer", refer);//設置請求報文頭里的refer字段
            ////設置請求報文頭里的User-Agent字段
            request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
            //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
            //wc.addRequestHeader和request.setAdditionalHeader功能應該是一樣的。選擇一個即可。
            //其他報文頭字段可以根據需要添加
            wc.getCookieManager().setCookiesEnabled(true);//開啟cookie管理
            wc.getOptions().setJavaScriptEnabled(true);//開啟js解析。對于變態網頁，這個是必須的
            wc.getOptions().setCssEnabled(true);//開啟css解析。對于變態網頁，這個是必須的。
            wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
            wc.getOptions().setThrowExceptionOnScriptError(false);
            wc.getOptions().setTimeout(10000);
            //設置cookie。如果你有cookie，可以在這里設置
            Set<Cookie> cookies=null;
            Iterator<Cookie> i = cookies.iterator();
            while (i.hasNext()) 
            {
                wc.getCookieManager().addCookie(i.next());
            }
            //準備工作已經做好了
            HtmlPage page=null;
            page = wc.getPage(request);
            if(page==null)
            {
                System.out.println("采集 "+url+" 失敗!!!");
                return ;
            }
            String content=page.asText();//網頁內容保存在content里
            if(content==null)
            {
                System.out.println("采集 "+url+" 失敗!!!");
                return ;
            }
            //搞定了
            CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
            Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在這里，下次請求的時候可能可以用上啦。

本文由用戶 fireRabit 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/code/view/1453189781464

Java 高防服務器 ddos cc

HtmlUnit 模擬瀏覽器以及Cookie使用示例

相關代碼

相關文檔

相關經驗

目錄