扒糗事百科精華的python爬蟲
# -- coding: utf-8 --import urllib2
import urllib
import re
import thread
import time----------- 加載處理糗事百科 -----------
class Spider_Model:
def __init__(self): self.page = 1 self.pages = [] self.enable = False # 將所有的段子都扣出來,添加到列表中并且返回列表 def GetPage(self,page): myUrl = "http://www.qiushibaike.com/hot/page/" + page myUrl = myUrl + "?s=4771468" user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:37.0) Gecko/20100101 Firefox/37.0' headers = { 'User-Agent' : user_agent } #print myUrl req = urllib2.Request(myUrl, headers = headers) myResponse = urllib2.urlopen(req) myPage = myResponse.read() #encode的作用是將unicode編碼轉換成其他編碼的字符串 #decode的作用是將其他編碼的字符串轉換成unicode編碼 unicodePage = myPage.decode("utf-8") # 找出所有class="content"的div標記 #re.S是任意匹配模式,也就是.可以匹配換行符 myItems = re.findall('<div.*?class="content">(.*?)</div>',unicodePage,re.S) items = [] for item in myItems: # item 中是div的內容,也就是糗事百科精華的內容 # item 中去掉換行 items.append(item.replace("\n","").replace("<br/>","")) return items # 用于加載新的段子 def LoadPage(self): # 如果用戶未輸入quit則一直運行 while self.enable: # 如果pages數組中的內容小于2個 if len(self.pages) < 2: try: # 獲取新的頁面中的段子們 myPage = self.GetPage(str(self.page)) self.page += 1 self.pages.append(myPage) except: print '無法鏈接糗事百科!' else: time.sleep(1) def ShowPage(self,nowPage,page): for items in nowPage: print u'第%d頁' % page , items myInput = raw_input() if myInput == "quit": self.enable = False break def Start(self): self.enable = True page = self.page print u'正在加載中請稍候......' # 新建一個線程在后臺加載段子并存儲 thread.start_new_thread(self.LoadPage,()) #----------- 加載處理糗事百科 ----------- while self.enable: # 如果self的page數組中存有元素 if self.pages: nowPage = self.pages[0] del self.pages[0] self.ShowPage(nowPage,page) page += 1
----------- 程序的入口處 -----------
print u"""
程序:糗百爬蟲 版本:0.3 原作者:why 修改者:天問-中國 日期:2015-05-12 語言:Python 2.7 操作:輸入quit退出閱讀糗事百科
功能:按下回車依次瀏覽今日的糗百熱點
"""
print u'請按下回車瀏覽今日的糗百內容:'
raw_input(' ')
myModel = Spider_Model()
myModel.Start()</pre>
本文由用戶 gww3 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!