1
wdd2007 2015-04-03 13:54:27 +08:00
你对比一下浏览器的请求和爬虫请求有哪些不一样的地方?
比如 useragent、比如 cookie? |
2
willsplashing 2015-04-03 13:55:22 +08:00
你确定python发出去的request和Chrome devtool里capture的request一模一样吗?
|
3
willsplashing 2015-04-03 13:57:21 +08:00
还有如果你爬虫一下子发很多request有些网站可能会有rate limit
|
4
dedewei OP |
5
dedewei OP @willsplashing 爬了二十个页面就断了,然后时而行时而不行
|
6
ETiV 2015-04-03 14:04:04 +08:00 via iPhone
firebug抓一次浏览器的请求,再用curl模拟提交(firebug有复制curl请求的功能),再一点点精简curl的参数
|
8
withrock 2015-04-03 14:43:16 +08:00
可能和cookie有关,如果不需要登录就可以抓取的话,建议关闭cooke
ps:我也写了个爬虫玩玩,互相学习。 http://git.oschina.net/mktime/scrapy-douban-group |
9
libo26 2015-04-03 16:16:20 +08:00
header与浏览器一致的话多半是频率限制了吧,增加时间间隔/换IP
|
10
kkx 2015-04-04 07:06:34 +08:00
用selenium 包治
|
11
ioven 2015-04-04 21:09:16 +08:00
burpsuite抓包,对比和浏览器的区别
|
12
ming2281 2015-04-08 22:33:48 +08:00
了解一下HTTP协议,然后这些大都知道怎么避免了
|