提取HTML信息的 Python 模塊：scrape.py

jopen 12年前發布 | 44K 次閱讀 scrape.py HTML操作類庫

scrape.py是從網頁抓取內容的Python模塊。使用它，您可以輕松地抓取頁面，跟蹤鏈接，并提交表格，Cookies，重定向和SSL自動處理。（對于SSL，你要么需要一個帶socket.ssl??功能的Python版本，或者curl命令行實用程序。）

scrape.py 并不解析頁面內容。

>>> s.doc
<Region 0:25751>
>>> s.headers
{'content-length': '25751',
 'accept-ranges': 'bytes',
 'server': 'Apache/2.2.8'
 'last-modified': 'Tue, 10 Sep 2013 21:38:28 GMT',
 'connection': 'close',
 'etag': '"5f4b02-6497-4e60e5347fd00"',
 'date': 'Tue, 10 Sep 2013 21:55:37 GMT',
 'content-type': 'text/html'}
>>> s.url
'http://zesty.ca/'

項目主頁：http://www.baiduhome.net/lib/view/home/1388545369297

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1388545369297.html

scrape.py HTML操作類庫

提取HTML信息的 Python 模塊：scrape.py

相關經驗

相關資訊

相關文檔

目錄