使用python 3實現的一個知乎內容的爬蟲:zhihu_crawler
zhihu_crawler
使用python 3實現的一個知乎內容的爬蟲,依賴requests、BeautifulSoup4。
功能
能夠爬取以下內容:
- 對于“問題”:標題、內容、關注人數、所在標簽、所有回答(回答人、回答內容、贊數以及評論數)
- 對于“用戶”:提問數量、回答數量、獲得的總贊數、被關注人數、關注的話題、關注的人
使用方法
需要在config.json里填上用戶名以及密碼,當程序運行時,登錄時可能會需要輸入驗證碼。
- 對于“問題”
from zhihu_question import Question qid = <qid> # 問題id q = Question(qid) q.update() # 獲取信息 q.persist(open(str(qid)+'.json', 'w', encoding='utf-8')) # 以json的格式存儲下來
對于“用戶”
from zhihu_person import Person pid = '<pid>' # 用戶id p = Person(pid) p.update() p.persist(open(str(pid)+'.json', 'w', encoding='utf-8')) # 以json的格式存儲下來
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!