C#抓取網頁的幾種方法

mb78 9年前發布 | 3K 次閱讀 C#

/// <summary>

    /// 用HttpWebRequest取得網頁源碼  
    /// 對于帶BOM的網頁很有效,不管是什么編碼都能正確識別  
    /// </summary>  
    /// <param name="url">網頁地址" </param>   
    /// <returns>返回網頁源文件</returns>  
    public static string GetHtmlSource2(string  url)
    {
        //處理內容  
        string html = "";
        HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
        request.Accept = "*/*"; //接受任意文件
        request.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.1.4322)"; // 模擬使用IE在瀏覽 http://www.52mvc.com
        request.AllowAutoRedirect = true;//是否允許302
        //request.CookieContainer = new CookieContainer();//cookie容器,
        request.Referer = url; //當前頁面的引用


        HttpWebResponse response = (HttpWebResponse)request.GetResponse();
        Stream stream = response.GetResponseStream();
        StreamReader reader = new StreamReader(stream, Encoding.Default);
        html = reader.ReadToEnd();
        stream.Close();


        return html;
    }

</pre>

 本文由用戶 mb78 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!