使用python+phantomjs抓取動態頁面
前一段時間公司需要爬取部分web頁面的數據使用。但是頁面中的主要數據是ajax load出來的,傳統的抓取方法是拿不到數據的。后來在網上發現了phantomjs,在無界面的情況下運行js,渲染dom。用這個工具抓取ajax load出來的數據再方便不過啦。
系統環境:CentOS release 6.5 (Final)
phantomjs版本:1.9.8
-
phantomjs抓取加載完整的dom結構。說到phantomjs怎么把數據傳遞給處理程序,我看到網上很多人是寫一個本地文件,然后具體的處理程序再讀取那個文件進行處理。感覺這種方式太麻煩了,干脆將數據打印到到標準輸出中,然后處理程序從標準輸出中讀取數據。
-
用python獲取數據。然后就開始處理了。具體的處理邏輯就不展示了。
來自:http://my.oschina.net/ushuaia/blog/361091
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!