利用urllib2加beautifulsoup爬取新浪微博

jopen 9年前發布 | 43K 次閱讀 網絡爬蟲 beautifulsoup

sina_weibo_crawler

基于urlib2及beautifulSoup實現的微博爬蟲系統。

數據庫采用mongodb,原始關系以txt文件存儲,原始內容以csv形式存儲,后期直接插入mongodb數據庫

功能:

* weibo登陸,原始登陸機制采用模擬登陸,直接用PIL庫調出驗證碼后,人工輸入后,將相關參數編碼到urllib2中,產生請求,后期采用cookie登陸,
免去了一系列麻煩。 
* 爬取推送內容,推送內容主要包括用戶發送的數據,包括發送時間、發送來源、轉發來源。
* 爬取用戶資料 ,包括用戶的性別、年齡、住址、圖像、昵稱、ID.
* 爬取用戶關注、粉絲名單,由于新浪限制,目前只可以爬取大約5頁左右的關注及粉絲列表。
* 爬取某條消息的評論及轉發數據,可以通過解析js數據,爬取任意轉發用戶、評論用戶的評論內容。
* 采用多進程在多核服務器上并行爬取

DEMO:

img1 img2 img3

架構環境:

1.python2.7

2.urllib2+beautifulsoup

3.multiprocess多進程

4.mongodb

功能框架:

main.py:后臺啟動程序

controller.py:邏輯控制主函數,控制任務個數及多進程數目

mongodb.py:主要是后續的csv數據插入數據庫的實現

craler:這是主要的解析函數

toolit:登陸函數以及下載主函數

uuid.txt:存放初始爬取的種子id

項目主頁:http://www.baiduhome.net/lib/view/home/1438150145535

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!