Python的一些用于抓取的方法封裝
[Python]代碼
#!/usr/bin/env python
#-*- coding:utf-8-*-
import urllib2
import re
import hashlib
import json
#--------------------------------------------------- 工具 start
def md5(str):
'''
計算MD5值
'''
m = hashlib.md5()
m.update(str)
return m.hexdigest()
def search(regex, content, group = 1):
'''
搜索指定正則匹配的內容
'''
pattern = re.search(regex, content, re.DOTALL)
if(pattern != None):
return pattern.group(group)
return ''
def findall(regex, content):
'''
查找指定正則匹配的所有內容
'''
return re.findall(regex, content, re.DOTALL)
def cleanHtmlTag(content):
'''
清理HTML標簽
'''
return content or re.sub(r'<[^>]*?>', '', content).strip()
def cleanedSearch(regex, content, group = 1):
'''
查找匹配的指定字符串并清除HTML標簽
'''
return cleanHtmlTag(search(regex, content, group))
def httpGet(url, encoding='gbk'):
'''
發送Http GET請求,返回內容
'''
return urllib2.urlopen(url).read().decode(encoding, 'ignore').encode('utf-8')
def toJson(dict):
return json.dumps(dict, ensure_ascii=False, indent=4)
#--------------------------------------------------- 工具 end 本文由用戶 LasonyaHart 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!