提取HTML信息的 Python 模塊:scrape.py
scrape.py是從網頁抓取內容的Python模塊。使用它,您可以輕松地抓取頁面,跟蹤鏈接,并提交表格,Cookies,重定向和SSL自動處理。 (對于SSL,你要么需要一個帶socket.ssl??功能的Python版本,或者curl命令行實用程序。)
scrape.py 并不解析頁面內容。
>>> s.doc
<Region 0:25751>
>>> s.headers
{'content-length': '25751',
'accept-ranges': 'bytes',
'server': 'Apache/2.2.8'
'last-modified': 'Tue, 10 Sep 2013 21:38:28 GMT',
'connection': 'close',
'etag': '"5f4b02-6497-4e60e5347fd00"',
'date': 'Tue, 10 Sep 2013 21:55:37 GMT',
'content-type': 'text/html'}
>>> s.url
'http://zesty.ca/' 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!