php采集類庫:Snoopy.class.php
Snoopy是一個php類,用來模擬瀏覽器的功能,可以獲取網頁內容,發送表單,可以用來開發一些采集程序和小偷程序。
Snoopy的一些特點:
抓取網頁的內容 fetch
抓取網頁的文本內容 (去除HTML標簽) fetchtext
抓取網頁的鏈接,表單 fetchlinks fetchform
支持代理主機
支持基本的用戶名/密碼驗證
支持設置 user_agent, referer(來路), cookies 和 header content(頭文件)
支持瀏覽器重定向,并能控制重定向深度
能把網頁中的鏈接擴展成高質量的url(默認)
提交數據并且獲取返回值
支持跟蹤HTML框架
支持重定向的時候傳遞cookies
要求php4以上就可以了 由于本身是php一個類 無需擴支持 服務器不支持curl時候的最好選擇
參考文獻:
1、snoopy(強大的PHP采集類) 詳細介紹:http://www.9it.me/article-33.html
2、php的Snoopy類:http://www.cnblogs.com/meteoric_cry/archive/2011/05/10/2042512.html
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!