http://search.anccnet.com/searchResult2.aspx 就平时自己在浏览点击差不多 10 次(相隔比较短时间内)就已经 401 了. 自己用 scrapy 爬取的时候,30 页,差不多 300 多条数据的爬取,只能获取到二十条数据. 想问这种网站爬取的话思路是怎样, 目前通过验证,用的一些免费代理的 ip 池
1
Le4fun 2018-07-04 16:37:20 +08:00
验证码过了么
|
3
crab 2018-07-04 16:49:51 +08:00
要稳定,租一台动态 adsl 拨号的 vps 换 IP 爬吧。
|
4
tingyunsay 2018-07-04 17:02:51 +08:00
@crab 老哥推荐个靠谱的厂商,买过的有问题,拨号那会儿偶尔断网,感觉是厂商服务不稳定导致的....
|
6
magicfam OP @crawl3r 我还没会那种,我的方法是里面 js 发送的一个 check_ok.再用更新头部的 cookie...这样就算是通过验证,不知道这个会有影响不.. 还是想大伙如果爬这个网站会有怎样的思路
|
7
magicfam OP 现在用 scrapy.也不知道什么问题.爬着爬着就没了...也没报错
|
8
nccer 2018-07-04 17:46:39 +08:00
有个叫阿布云的 HTTP 代理商蛮好用的。
|
9
beforeuwait 2018-07-05 11:37:50 +08:00
同 8 楼
|
10
sml2h3 2018-12-20 11:24:22 +08:00
https://github.com/sml2h3/luosimao_cracker
不谢,螺丝帽点击验证码代码层的破解,不用总是复制 cookies |