python實現爬蟲下載美女圖片

LueOsburn 8年前發布 | 10K 次閱讀 Python IntelliJ IDEA,GWT,配置

[Python]代碼    

#-*- coding:utf-8 -*- http://www.aichengxu.com
import urllib2
import re
import requests
from lxml import etree

這些是要導入的庫,代碼并沒有使用正則,使用的是xpath,正則困難的童鞋可以嘗試使用下

推薦各位先使用基本庫來寫,這樣可以學習到更多

links=[]    #遍歷url的地址
k=1    
print u'請輸入最后的頁數:'
endPage=int(raw_input())    #最終的頁數  (r'\d+(?=\s*頁) 這是一個比較通用的正則抓取總頁數的代碼,當然最后要group

#這里是手動輸入頁數,避免內容太多

for j in range(0,endPage):
  url='http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn='+str(j)      #頁數的url地址
  html=urllib2.urlopen(url).read()                #讀取首頁的內容
  selector=etree.HTML(html)              #轉換為xml,用于在接下來識別
  links=selector.xpath('//div/a[@class="j_th_tit"]/@href')        #抓取當前頁面的所有帖子的url

#大家可以使用瀏覽器自帶的源碼查看工具,在指定目標處查看元素,這樣更快捷

  for i in links:
    url1="http://tieba.baidu.com"+i      #因為爬取到的地址是相對地址,所以要加上百度的domain
    html2=urllib2.urlopen(url1).read()      #讀取當前頁面的內容
    selector=etree.HTML(html2)          #轉換為xml用于識別
    link=selector.xpath('//img[@class="BDE_Image"]/@src')    #抓取圖片,各位也可以更換為正則,或者其他你想要的內容

#此處就是遍歷下載
    for each in link:
      #print each
      print u'正在下載%d'%k
      fp=open('image/'+str(k)+'.bmp','wb')      #下載在當前目錄下 image文件夾內,圖片格式為bmp
      image1=urllib2.urlopen(each).read()        #讀取圖片的內容
      fp.write(image1)                  #寫入圖片
      fp.close()
      k+=1    #k就是文件的名字,每下載一個文件就加1

print u'下載完成!'
 本文由用戶 LueOsburn 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!