使用python 3實現的一個知乎內容的爬蟲：zhihu_crawler

jopen 10年前發布 | 24K 次閱讀爬蟲網絡爬蟲

zhihu_crawler

使用python 3實現的一個知乎內容的爬蟲，依賴requests、BeautifulSoup4。

功能

能夠爬取以下內容：

對于“問題”：標題、內容、關注人數、所在標簽、所有回答（回答人、回答內容、贊數以及評論數）
對于“用戶”：提問數量、回答數量、獲得的總贊數、被關注人數、關注的話題、關注的人

使用方法

需要在config.json里填上用戶名以及密碼，當程序運行時，登錄時可能會需要輸入驗證碼。

對于“問題”

from zhihu_question import Question

qid = <qid>  # 問題id
q = Question(qid)
q.update()  # 獲取信息
q.persist(open(str(qid)+'.json', 'w', encoding='utf-8'))  # 以json的格式存儲下來

對于“用戶”

from zhihu_person import Person

pid = '<pid>'  # 用戶id
p = Person(pid)
p.update()
p.persist(open(str(pid)+'.json', 'w', encoding='utf-8'))  # 以json的格式存儲下來

項目主頁：http://www.baiduhome.net/lib/view/home/1442049261117

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1442049261117.html

爬蟲網絡爬蟲

使用python 3實現的一個知乎內容的爬蟲：zhihu_crawler

zhihu_crawler

功能

使用方法

相關經驗

相關資訊

相關文檔

目錄