各位好,最近想采集一个网站,采用的是 urllib2 和 beautifulsoup 。然后发现这个网站挂了 Incapsula 这个 CDN ,和 Cloudflare 一样,访问主页 aaa.com 之后会在后面加入 aaa.com/?key302=80ebbaed9d&expire302=1465622987&keyjs=80ebbaed9d&expirejs=1465622987 这样的字符串。用 urllib.request 方法就会报 302 错误,请教这种情况下如何解决? 十分感谢!
1
kenX 2016-06-11 15:16:07 +08:00 via iPhone 1
PhantomJS
|
2
ioven 2016-06-11 16:37:02 +08:00 1
requests 允许跳转
|
3
disonlee OP @ioven 是允许跳转,我不太清楚这个 cdn 后面加的字符串什么策略, headers 也都伪装了,还是提示 too many loops
|
4
xiaozhizhu1997 2016-06-11 18:51:37 +08:00 via Android 1
@disonlee 加 key 是一种防御 L7(CC)攻击的方式。
|
7
wujunze 2016-06-12 10:10:19 +08:00
PhantomJS 这个是神器
|
8
maxsec 2016-06-12 16:31:03 +08:00
建议 livid 版规中禁止讨论爬虫抓取此类负能量的功能问题
|