提取HTML信息的 Python 模塊:scrape.py

jopen 10年前發布 | 44K 次閱讀 scrape.py HTML操作類庫

scrape.py是從網頁抓取內容的Python模塊。使用它,您可以輕松地抓取頁面,跟蹤鏈接,并提交表格,Cookies,重定向和SSL自動處理。 (對于SSL,你要么需要一個帶socket.ssl??功能的Python版本,或者curl命令行實用程序。)

scrape.py 并不解析頁面內容。

>>> s.doc
<Region 0:25751>
>>> s.headers
{'content-length': '25751',
 'accept-ranges': 'bytes',
 'server': 'Apache/2.2.8'
 'last-modified': 'Tue, 10 Sep 2013 21:38:28 GMT',
 'connection': 'close',
 'etag': '"5f4b02-6497-4e60e5347fd00"',
 'date': 'Tue, 10 Sep 2013 21:55:37 GMT',
 'content-type': 'text/html'}
>>> s.url
'http://zesty.ca/'

項目主頁:http://www.baiduhome.net/lib/view/home/1388545369297

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!