使用scrapy和pandas完成對知乎300w用戶的數據分析

wb26 10年前發布 | 64K 次閱讀網絡技術 Scrapy

overview

使用scrapy和pandas完成對知乎300w用戶的數據分析。首先使用scrapy爬取知乎網的300w，用戶資料，
最后使用pandas對數據進行過濾，找出想要的知乎大牛，并用圖表的形式可視化。

requirments:

os:win7 64bit
scrapy:1.0
python：2.7.10
anaconda:安裝這個，可以使用里面的ipython notebook

use

1.由于知乎網需要登錄，所以如果想要使用這個爬蟲，需要有一點scrapy基礎。scrapy登陸的時候需要自己的知乎賬號和密碼，請修改
zhihu\zhihu\spiders\zhihu_spider.py，里面的： formdata =
{ '_xsrf': xsrf,#不需要修改
'email': 'abc@qq.com', #改成自己知乎登陸賬號
'password': 'abc'#改成自己的密碼
},
2.下載文件夾到自己的電腦上，打開windows,cmd，cd zhihu:
scrapy crawl zhihu -o user.json（生成一個user.json文件，里面包含我們需要的用戶信息： json有將近300w條用戶信息。每一條的組成結構如下所示：
url #用戶主頁地址
aggree_count #用戶獲得的贊同數（越多越牛） thanks_count #用戶得到的感謝數（越多越牛）
name #用戶名字
most_good_topic #最感興趣的話題

關于爬蟲方面的疑問，請參考這個鏈接：

使用scrapy模擬登陸知乎

使用pandas對user.json進行數據分析，以及可視化。

關于這部分的代碼，我全部放在data_analysis.ipynb，只要計算機上安裝了ipython notebook，就可以打開，重現計算結果

項目主頁：http://www.baiduhome.net/lib/view/home/1440057009208

本文由用戶 wb26 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1440057009208.html

網絡技術 Scrapy

使用scrapy和pandas完成對知乎300w用戶的數據分析

overview

requirments:

use

關于爬蟲方面的疑問，請參考這個鏈接：

使用pandas對user.json進行數據分析，以及可視化。

相關經驗

相關資訊

相關文檔

目錄