python爬取標題和作者時間的小程序
#encoding:UTF-8
import urllib.parse
import urllib.request
import base64
import re
import sys
import time
from random import sample
import codecs
from html.parser import HTMLParser
log = 'gogogo.txt'
logfile = codecs.open(log,'w','utf-8')
class MyHTMLParser(HTMLParser):
def init(self):
HTMLParser.init(self)
self.a=0
self.span=0;
def handle_starttag(self,tag,attrs):
if tag=='a':
for name,value in attrs:
if name=='class' and value=='tit':
self.a=1
if tag=='span':
for name,value in attrs:
if name=='class' and value=='reply':
self.span=1
def handle_endtag(self, tag):
if tag == 'a' and self.a==1:
self.a=0
logfile.write('|')
if tag=='span' and self.span==1:
self.span=0
logfile.write('\n')
def handle_data(self, data):
if (self.a or self.span):
logfile.write(data)
parser = MyHTMLParser()
def getpage(url):
req = urllib.request.Request(url)
response = urllib.request.urlopen(req)
the_page = response.read()
return the_page
for i in range(1,405):
url='
本文由用戶 encn 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!