"開源:SinaSpider - 動態IP解決新浪的反爬蟲機制"
SinaSpider
動態IP解決新浪的反爬蟲機制,快速抓取微博內容。
Background
抓取1000個公司(在companyList.py文件中)五年內相關的微博,進而統計評論數、轉發數、點贊數等等。
Environment
- Python2.7
- winxp服務器(通過某寶購買,關鍵是ADSL撥號功能,不然無法實現動態IP,也就解決不了新浪的反爬蟲機制)
Results
-
每個公司五年內的微博(通過sqlite3存儲)
下面截圖為company0000.db的微博。
-
所有公司微博評論數、轉發數、點贊數的統計(excel形式呈現)
本文由用戶 virtuala 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!