HtmlUnit 模擬瀏覽器以及Cookie使用示例
最近寫爬蟲的時候,利用httpclient抓取一些網頁出現一些問題,就是抓取回來的內容都含有大量的加密文本(通過javascript腳本),無法獲得真實的內容(也就是用瀏覽器打開網頁呈現的內容)。所以,一般需要配合js引擎來解決這個問題,搜索了下,發現htmlunit這個工具就可以幫忙。了解和使用過程中,發現這是一個非常牛逼的開源工具,雖然名氣比httpclient小,但是實力絕對不容小覷。 閑話少說。目前htmlunit的最新版本是2.15,可以從這里下載:http://sourceforge.net/projects/htmlunit/files/htmlunit/2.15/
String url="http://xxxx.xx/";//想采集的網址 String refer="http://xxx.xx/"; URL link=new URL(url); WebClient wc=new WebClient(); WebRequest request=new WebRequest(link); request.setCharset("UTF-8"); request.setProxyHost("x.120.120.x"); request.setProxyPort(8080); request.setAdditionalHeader("Referer", refer);//設置請求報文頭里的refer字段 ////設置請求報文頭里的User-Agent字段 request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); //wc.addRequestHeader和request.setAdditionalHeader功能應該是一樣的。選擇一個即可。 //其他報文頭字段可以根據需要添加 wc.getCookieManager().setCookiesEnabled(true);//開啟cookie管理 wc.getOptions().setJavaScriptEnabled(true);//開啟js解析。對于變態網頁,這個是必須的 wc.getOptions().setCssEnabled(true);//開啟css解析。對于變態網頁,這個是必須的。 wc.getOptions().setThrowExceptionOnFailingStatusCode(false); wc.getOptions().setThrowExceptionOnScriptError(false); wc.getOptions().setTimeout(10000); //設置cookie。如果你有cookie,可以在這里設置 Set<Cookie> cookies=null; Iterator<Cookie> i = cookies.iterator(); while (i.hasNext()) { wc.getCookieManager().addCookie(i.next()); } //準備工作已經做好了 HtmlPage page=null; page = wc.getPage(request); if(page==null) { System.out.println("采集 "+url+" 失敗!!!"); return ; } String content=page.asText();//網頁內容保存在content里 if(content==null) { System.out.println("采集 "+url+" 失敗!!!"); return ; } //搞定了 CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在這里,下次請求的時候可能可以用上啦。
本文由用戶 fireRabit 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!