Python 使用模擬瀏覽器和代理ip,被豆瓣封
0
Python2.7,使用urllib2,模擬瀏覽器和使用代理ip還是被封掉。
1.瀏覽器頭有30個,隨機取;代理ip從代理網站上爬取的,高匿,1000個,隨機取。
2.程序開始創建2個進程,進程A用于使用代理ip和user-agent生成Cookie,進程B等待Cookie數量到達50個開始工作;進程B工作時隨機使用user-agent和代理ip,并隨機挑選Cookie,并且修改了X-Forwarded-For和X-Real-IP;若帶有Cookie返回403,則去除該Cookie,進程A填充;
3.運行過一段時間之后被封。
為了明確找到問題,我使用了三臺線上服務器開始驗證。
驗證一:有無代理成功?
按照網上教程,配置nginx,企圖獲取真實ip,包括X-Forwarded-For和X-Real-IP,很不幸,nginx日志查看的都是代理之后的ip
驗證二:封禁的是Cookie還是代理ip,還是原始ip?
用被封的服務器使用正常的服務器生成的Cookie,返回403;替換其他代理ip,返回403;用正常的服務器使用被封的代理ip和cookie,發現可正常訪問。說明原始ip被封禁了。
那么問題來了,我的真實ip是如何暴露的?