使用python 3實現的一個知乎內容的爬蟲:zhihu_crawler

jopen 9年前發布 | 24K 次閱讀 爬蟲 網絡爬蟲

zhihu_crawler

使用python 3實現的一個知乎內容的爬蟲,依賴requests、BeautifulSoup4。

功能

能夠爬取以下內容:

  • 對于“問題”:標題、內容、關注人數、所在標簽、所有回答(回答人、回答內容、贊數以及評論數)
  • 對于“用戶”:提問數量、回答數量、獲得的總贊數、被關注人數、關注的話題、關注的人

使用方法

需要在config.json里填上用戶名以及密碼,當程序運行時,登錄時可能會需要輸入驗證碼。

  • 對于“問題”
from zhihu_question import Question

qid = <qid>  # 問題id
q = Question(qid)
q.update()  # 獲取信息
q.persist(open(str(qid)+'.json', 'w', encoding='utf-8'))  # 以json的格式存儲下來

對于“用戶”
from zhihu_person import Person

pid = '<pid>'  # 用戶id
p = Person(pid)
p.update()
p.persist(open(str(pid)+'.json', 'w', encoding='utf-8'))  # 以json的格式存儲下來

項目主頁:http://www.baiduhome.net/lib/view/home/1442049261117

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!