C#抓取網頁的幾種方法
/// <summary>/// 用HttpWebRequest取得網頁源碼 /// 對于帶BOM的網頁很有效,不管是什么編碼都能正確識別 /// </summary> /// <param name="url">網頁地址" </param> /// <returns>返回網頁源文件</returns> public static string GetHtmlSource2(string url) { //處理內容 string html = ""; HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); request.Accept = "*/*"; //接受任意文件 request.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.1.4322)"; // 模擬使用IE在瀏覽 http://www.52mvc.com request.AllowAutoRedirect = true;//是否允許302 //request.CookieContainer = new CookieContainer();//cookie容器, request.Referer = url; //當前頁面的引用 HttpWebResponse response = (HttpWebResponse)request.GetResponse(); Stream stream = response.GetResponseStream(); StreamReader reader = new StreamReader(stream, Encoding.Default); html = reader.ReadToEnd(); stream.Close(); return html; }
</pre>
本文由用戶 mb78 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!