最近想做大数据分析; 所以想爬取了网易云的所有用户信息;
那么重点来了,我发现,网易云有单模块防御机制; 比如个人用户主页,我爬取了大概 5W+左右,反爬机制就生效了, 不管访问哪一个用户的主页,都是返回 404,连我自己的个人中心都无法登录了;
我试过 cookie 变换,但是得出结论绝对是 IP 被黑了。 请问各位,有没有相关经验。 到底是不是黑了 IP。。。。。
1
sunzongzheng 2018-11-09 19:38:54 +08:00 via Android 1
我被 ban 过 ip,大概 ban 了 7 到 10 天左右
|
2
smallgoogle OP @sunzongzheng 不是。那么认真的么? 7-10 天?
|
3
cyrbuzz 2018-11-09 20:49:08 +08:00
网易云的反爬貌似是基于账号的,换 cookies 是有用的吧?
|
4
Baboonowen 2018-11-09 21:01:29 +08:00
来个爬虫代码 让大伙验证一下 嘿嘿
|
5
CivAx 2018-11-09 21:05:10 +08:00
去随便一个云买个小鸡跑一下就知道了
|
6
locoz 2018-11-09 21:23:43 +08:00 via Android
不换 IP 又不在限制范围内当然会被封 IP 啊。。
|
7
smallgoogle OP @cyrbuzz 是 IP 挂了。cookie 换过了。无效。
|
8
masterjoess 2018-11-09 22:52:36 +08:00
虽然让你爬了 5W+了,但你该不会是想用单 IP 爬全站吧?全国混拨了解一下
|
9
sunzongzheng 2018-11-09 23:03:43 +08:00 via Android
@smallgoogle 我上次是 for 循环无延时调的音乐接口,在服务器上,然后被 ban 了这么久
|
10
LukeChien 2018-11-09 23:04:15 +08:00
网易云有啥好爬的
|
11
whoami9894 2018-11-09 23:58:20 +08:00 via Android
我记得原来爬 ins,cookie+ip+请求间隔反爬,接口还乱糟糟,头疼
|
12
smallgoogle OP @sunzongzheng 目前来看。我到现在还没解封。估计是六七天才行了。
|
13
smallgoogle OP @masterjoess 大概是我太单纯了。
|
14
smallgoogle OP 这两天摸出结论:
网易云是双封,先在你的 cookies 写入封禁的字段,然后封禁 IP ; 如果你换了 IP,不清理 cookies,一样死; 所以解封的办法是,先清理 cookie,然后换 IP。然后访问就 OK 了。 |
15
cxa 2018-11-12 16:50:07 +08:00
现在还有写爬虫不叫代理的么。。。
|
16
bjt5521 2018-11-14 11:43:49 +08:00
我是做代理 IP 的,我们有个企业客户,成立了一个攻坚反爬部门,专门研究怎么绕过风控抓取数据。现在风控台厉害了
|
17
smallgoogle OP @bjt5521 成功绕过了么?
|
18
skywingfs 2018-11-19 17:30:16 +08:00
搞爬虫你需要代理池
|
19
kr380709959 2018-11-22 16:07:42 +08:00
你这单 ip 单 cookie 想爬全站么?
我一个新手爬拉钩都用了十几个 cookie+代理隧道爬取,爬了 50 万+的数据,压根没毛病。 楼上有个哥们说得对,随机 cookie 列表+代理 ip+随机间隔请求时间,基本上对付中小网站没问题了,除非你想碰阿里这种怪物。 |
20
find456789 2018-11-29 11:00:24 +08:00
|
21
kr380709959 2018-11-29 13:16:08 +08:00
@find456789 我用的是一个账号生成的 cookie,但是不知道网站是不是对 cookie 有限制的。你也可以生成十几个账号对应的 cookie 来爬,那样反爬就更难处理了
|
22
kr380709959 2018-11-29 13:17:16 +08:00
|
23
smallgoogle OP @kr380709959 其实网易云的反爬除了 IP 还有 cookie。如果 IP 被墙了。Cookie 也是有问题的。。就算你换 IP,不清除 cookie。依然被墙。UA 倒是没限制。
|
24
kr380709959 2018-11-30 09:49:56 +08:00
@smallgoogle 那就要仔细研究下了。
|