利用urllib2加beautifulsoup爬取新浪微博
sina_weibo_crawler
基于urlib2及beautifulSoup實現的微博爬蟲系統。
數據庫采用mongodb,原始關系以txt文件存儲,原始內容以csv形式存儲,后期直接插入mongodb數據庫
功能:
* weibo登陸,原始登陸機制采用模擬登陸,直接用PIL庫調出驗證碼后,人工輸入后,將相關參數編碼到urllib2中,產生請求,后期采用cookie登陸, 免去了一系列麻煩。 * 爬取推送內容,推送內容主要包括用戶發送的數據,包括發送時間、發送來源、轉發來源。 * 爬取用戶資料 ,包括用戶的性別、年齡、住址、圖像、昵稱、ID. * 爬取用戶關注、粉絲名單,由于新浪限制,目前只可以爬取大約5頁左右的關注及粉絲列表。 * 爬取某條消息的評論及轉發數據,可以通過解析js數據,爬取任意轉發用戶、評論用戶的評論內容。 * 采用多進程在多核服務器上并行爬取
DEMO:
架構環境:
1.python2.7 2.urllib2+beautifulsoup 3.multiprocess多進程 4.mongodb
功能框架:
main.py:后臺啟動程序 controller.py:邏輯控制主函數,控制任務個數及多進程數目 mongodb.py:主要是后續的csv數據插入數據庫的實現 craler:這是主要的解析函數 toolit:登陸函數以及下載主函數 uuid.txt:存放初始爬取的種子id
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!