使用scrapy和pandas完成對知乎300w用戶的數據分析

wb26 9年前發布 | 64K 次閱讀 網絡技術 Scrapy

overview

使用scrapy和pandas完成對知乎300w用戶的數據分析。首先使用scrapy爬取知乎網的300w,用戶資料,
最后使用pandas對數據進行過濾,找出想要的知乎大牛,并用圖表的形式可視化。

requirments:

os:win7 64bit
scrapy:1.0
python:2.7.10
anaconda:安裝這個,可以使用里面的ipython notebook

use

1.由于知乎網需要登錄,所以如果想要使用這個爬蟲,需要有一點scrapy基礎。scrapy登陸的時候需要自己的知乎賬號和密碼,請修改
zhihu\zhihu\spiders\zhihu_spider.py,里面的 : formdata =
{ '_xsrf': xsrf,#不需要修改
'email': 'abc@qq.com', #改成自己知乎登陸賬號
'password': 'abc'#改成自己的密碼
},
2.下載文件夾到自己的電腦上,打開windows,cmd,cd zhihu:
scrapy crawl zhihu -o user.json(生成一個user.json文件,里面包含我們需要的用戶信息: json有將近300w條用戶信息。每一條的組成結構如下所示:
url #用戶主頁地址
aggree_count #用戶獲得的贊同數(越多越牛) thanks_count #用戶得到的感謝數(越多越牛)
name #用戶名字
most_good_topic #最感興趣的話題

關于爬蟲方面的疑問,請參考這個鏈接:

使用scrapy模擬登陸知乎

使用pandas對user.json進行數據分析,以及可視化。

關于這部分的代碼,我全部放在data_analysis.ipynb,只要計算機上安裝了ipython notebook,就可以打開,重現計算結果

項目主頁:http://www.baiduhome.net/lib/view/home/1440057009208

 本文由用戶 wb26 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!