如题,能否有人剖析下豆瓣的反爬策略
我的 IP 应该被加入了豆瓣的黑名单。
检测到有异常请求从你的 IP 发出,请 登录 使用豆瓣。
1
knightdf 2017-02-17 11:04:15 +08:00
这能告诉你?
|
2
gimp 2017-02-17 11:05:44 +08:00
买海量代理可解决绝大部分反爬问题
|
3
linbiaye 2017-02-17 11:06:33 +08:00
这是要人吃豆瓣的饭砸豆瓣的锅。
|
4
murmur 2017-02-17 11:07:53 +08:00
兄弟这不厚道啊
|
5
wangyifei6817 2017-02-17 11:10:40 +08:00
有法院的同事吗?想请教下现行法律有什么漏洞
|
6
xidianlz 2017-02-17 11:16:58 +08:00
有福彩中心的同事吗?想请教下下一期中奖号码是多少
|
7
quietcoder 2017-02-17 11:20:57 +08:00
有监狱的同事吗?想请教一下怎么越狱
|
8
jixiangqd 2017-02-17 11:54:46 +08:00
|
9
HGladIator 2017-02-17 11:58:18 +08:00 via iPhone
有钻石矿井的同事吗?想请教一下怎么哪点儿回家
|
10
expkzb 2017-02-17 12:06:33 +08:00
看标题,楼主应该在豆瓣工作
|
13
yopming 2017-02-17 12:16:29 +08:00
我觉得楼主是也要建立反爬机制吧
|
14
lhbc 2017-02-17 12:17:24 +08:00 via iPhone
有银行的同事吗?我想请教下小型机的和审计系统的 root 密码。
|
16
Famio 2017-02-17 12:22:08 +08:00
我知道有一个人知道,而且这个人开发了收集豆瓣小组里妹子福利图片的 app ……
|
17
ywgx 2017-02-17 12:25:50 +08:00
入职豆瓣,加白名单自己的 IP
|
18
sunchen 2017-02-17 12:28:35 +08:00
没什么反爬啊
|
19
lhbc 2017-02-17 12:33:42 +08:00 via iPhone
@expkzb 如果楼主是豆瓣员工,在公共论坛讨论公司机密。最轻最轻的处罚应该是开除,如果造成信息安全事故,可能还得承担民事或者刑事责任。
如果楼主不是豆瓣员工,那一定是伸手惯犯。 |
21
em70 2017-02-17 12:44:00 +08:00 via Android
豆瓣防盗链就是按频率的,白天一分钟超过 40 次就出验证码,晚上放宽到 60
|
22
tookbra 2017-02-17 13:43:10 +08:00
代理就能解决,邪恶点用 tor 就可以( ╯□╰ )
|
23
wmttom 2017-02-17 14:15:39 +08:00 via iPhone
以前做过的豆瓣抓取是,伪装真实浏览器 cookie ,每个 cookie 每分钟请求几十次,高频率容易被封 ip ,保持出验证码的低频多代理。然后出验证码都是英语单词,简单处理下背景,找个 OCR 接口一调,再做下单词纠错,自动提交验证码继续抓。
|
24
xrlin 2017-02-18 23:04:11 +08:00
我的 ip 也被拉黑了,今天用 pyspider 爬取一些豆瓣的一些信息拿来练习下数据分析つ﹏⊂
|
25
IanPeverell 2017-02-20 11:15:35 +08:00 via iPhone
可能会根据你的请求频率,短时间内请求数量,以及请求间隔是否有规律
所以我的想法是多代理,设随机不少于一定数值的延迟 |