"開源:SinaSpider - 動態IP解決新浪的反爬蟲機制"

virtuala 7年前發布 | 34K 次閱讀 新浪 網絡爬蟲

SinaSpider

動態IP解決新浪的反爬蟲機制,快速抓取微博內容。

Background

抓取1000個公司(在companyList.py文件中)五年內相關的微博,進而統計評論數、轉發數、點贊數等等。

Environment

  • Python2.7
  • winxp服務器(通過某寶購買,關鍵是ADSL撥號功能,不然無法實現動態IP,也就解決不了新浪的反爬蟲機制)

Results

  • 每個公司五年內的微博(通過sqlite3存儲)

    下面截圖為company0000.db的微博。

  • 所有公司微博評論數、轉發數、點贊數的統計(excel形式呈現)

 

 

 

 本文由用戶 virtuala 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!