python爬取標題和作者時間的小程序
#encoding:UTF-8 import urllib.parse import urllib.request import base64 import re import sys import time from random import sample import codecs from html.parser import HTMLParser log = 'gogogo.txt' logfile = codecs.open(log,'w','utf-8') class MyHTMLParser(HTMLParser): def init(self): HTMLParser.init(self) self.a=0 self.span=0; def handle_starttag(self,tag,attrs): if tag=='a': for name,value in attrs: if name=='class' and value=='tit': self.a=1 if tag=='span': for name,value in attrs: if name=='class' and value=='reply': self.span=1 def handle_endtag(self, tag): if tag == 'a' and self.a==1: self.a=0 logfile.write('|') if tag=='span' and self.span==1: self.span=0 logfile.write('\n') def handle_data(self, data): if (self.a or self.span): logfile.write(data) parser = MyHTMLParser()def getpage(url): req = urllib.request.Request(url) response = urllib.request.urlopen(req) the_page = response.read() return the_page for i in range(1,405): url='
本文由用戶 encn 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!