利用urllib2加beautifulsoup爬取新浪微博

jopen 10年前發布 | 43K 次閱讀網絡爬蟲 beautifulsoup

sina_weibo_crawler

基于urlib2及beautifulSoup實現的微博爬蟲系統。

數據庫采用mongodb，原始關系以txt文件存儲，原始內容以csv形式存儲，后期直接插入mongodb數據庫

功能:

* weibo登陸，原始登陸機制采用模擬登陸，直接用PIL庫調出驗證碼后，人工輸入后，將相關參數編碼到urllib2中，產生請求，后期采用cookie登陸,
免去了一系列麻煩。 
* 爬取推送內容，推送內容主要包括用戶發送的數據，包括發送時間、發送來源、轉發來源。
* 爬取用戶資料 ，包括用戶的性別、年齡、住址、圖像、昵稱、ID.
* 爬取用戶關注、粉絲名單,由于新浪限制，目前只可以爬取大約5頁左右的關注及粉絲列表。
* 爬取某條消息的評論及轉發數據，可以通過解析js數據，爬取任意轉發用戶、評論用戶的評論內容。
* 采用多進程在多核服務器上并行爬取

DEMO:

架構環境：

1.python2.7

2.urllib2+beautifulsoup

3.multiprocess多進程

4.mongodb

功能框架：

main.py：后臺啟動程序

controller.py：邏輯控制主函數，控制任務個數及多進程數目

mongodb.py：主要是后續的csv數據插入數據庫的實現

craler：這是主要的解析函數

toolit:登陸函數以及下載主函數

uuid.txt:存放初始爬取的種子id

項目主頁：http://www.baiduhome.net/lib/view/home/1438150145535

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1438150145535.html

網絡爬蟲 beautifulsoup

利用urllib2加beautifulsoup爬取新浪微博

sina_weibo_crawler

相關經驗

相關資訊

相關文檔

目錄