1
Abbeyok 2019-04-02 11:14:07 +08:00 via Android
不如发个 Demo,让大家测试一下是否真的能防爬虫
|
3
StarRED 2019-04-02 11:16:52 +08:00 via Android
🙃
|
5
chocho OP 这几天陆续会放出一些 demo 和接入方式给大家
|
6
chocho OP 感兴趣的扫码,进群,里面主要交流测试网站和测试接入,也可以在线提问,可以交流反爬虫知识,测试阶段也可能会有些有偿的竞赛,不排除设奖金做爬虫攻防
[!text]( https://bob.36deep.com/assets/others/antirobots.jpg) |
7
xuminzhong 2019-04-02 12:03:53 +08:00 1
我是做爬虫的,除了 100% 弹出的图形验证码,还没有我抓不到的。
|
8
lhx2008 2019-04-02 12:10:13 +08:00 via Android
外挂反爬虫原理也不多,不知道有没有什么新意?反代有没有性能和可用性问题?
|
9
itskingname 2019-04-02 12:35:54 +08:00
做爬虫的同学,大家不要帮他发展反爬虫产品。
|
11
chocho OP @itskingname 哈哈哈,安全攻防都是存在的,即时我们不做,也是有人在做,另外爬虫这个事情,主要防止恶劣行为,不是所有的东西都是防护的
|
12
chocho OP @xuminzhong 哈哈,那你们很厉害啊,请高抬贵手
|
13
tingyunsay 2019-04-02 13:11:54 +08:00
可以挂出来,大家一起给你测测😂
|
14
aver4vex 2019-04-02 13:14:52 +08:00
挂出来,让我们测试下效果。
|
15
lusi1990 2019-04-02 13:17:31 +08:00 via Android
赶快挂出来测试下
|
16
Johnson66 2019-04-02 13:32:47 +08:00
#7 加一 除非让用户都访问不了,否则没有爬不了的~
|
17
szpShang 2019-04-02 14:13:44 +08:00
淘宝现在访问都要用户登录了。如果频繁看评论信息还会被限制了。 那现在你们还会像以前访问淘宝吗?但是爬淘宝的数据还是可行的。只是成本增加(需要多个账号和新的调度规则去爬取)。
反爬的东西只会增加用户的反感,然后增加爬取的成本。等到用户量很少的时候,基本上就不用爬取了(已经没有意义了)。 计算机的原理就是要想看到数据。这个数据必须存储到本地机器上。就好比邮箱钥匙放在邮箱里面,要想开邮箱必须先拿到钥匙,要想拿到钥匙必须先开邮箱。反爬是否能行呢。 |
18
kisshere 2019-04-02 14:16:56 +08:00
@xuminzhong 就是弹出图形验证码,都能破,除了 recaptcha,是真没办法
|
19
c4f36e5766583218 2019-04-02 14:22:34 +08:00
@kisshere 广义来讲都能破,时间问题吧,2333 我瞎说的
[破解谷歌最新 ReCaptcha 成功率高达 91%的验证反制技术]( https://zhuanlan.zhihu.com/p/53970061) |
20
chocho OP @c4f36e5766583218 是的广义上面来讲 纯前段的反爬虫都是可以破解的,就是时间问题,所以需要动态对抗,或者形式转嫁
|
21
szpShang 2019-04-02 14:26:35 +08:00
@c4f36e5766583218 难度越高,用户体验就会差。体验差,用户量就会减少。一个应用如果用户量少,数据也就失去价值,那还爬它作甚。
|
22
chocho OP @szpShang 是的,但是我们这个不会搞那么复杂,正常情况下,用户是不会感觉到有防护的,主要针对爬虫来讲门槛会提高一些
|
23
chocho OP @Johnson66 是这样的,但是不会让爬虫那么轻易的就爬到数据,一方面主要是保障业务稳定,另外那些人工打码操作的,就没法防御
|
24
szpShang 2019-04-02 15:00:22 +08:00
@chocho http 本来就是无状态的协议。就是永远也不知道当前的协议是什么状态的。
就好比计算机本来设计规则让水从高处向低处流。而你却在这个设计规则上去忤逆这个设计让水从低处向高处走。 互联网的技术都是防止数据传输时候泄漏。现在变成要识别客户端利用刚浏览的数据对发布者是否有弊端。 抛开如何繁琐的 cookie 获取历程的技术问题(完全可以人工操作掉)。这个业务真的是有意义吗。 以前爬取携程时候,如果爬取太频繁,价格就会故意错乱。个人猜测杀熟技术就是源于此。你这个业务真的是识别爬虫还是识别老用户,为杀熟技术提供温床。 |
25
chocho OP @szpShang 分析和很到位,这种的太敏感的数据,很多公司做了不少的账号权限,可以规避这种问题,与反爬虫要解决的安全风险问题有重叠,cookie 这些都是不错的防御方案,但是明显如你所说,完全在前端做太多的文章是没有意义的,可能需要一些新的思路来解决这个问题
|
26
joesonw 2019-04-02 16:14:53 +08:00
|
27
summer1988 2019-04-02 18:20:28 +08:00
我觉得限制型反扒没必要, 假数据貌似更有意思一点
|
28
chocho OP @summer1988 数据投毒是吧
|
29
xuminzhong 2019-04-02 22:29:55 +08:00 via Android
@joesonw 谢谢,我们有使用类似服务。
|
30
51300520 2019-04-03 01:14:43 +08:00
标记 一下
|
31
chocho OP @xuminzhong 你们也用了反爬虫?你不是爬虫吗?
|
32
ghmasiol 2019-04-03 10:18:06 +08:00
以前用 es 分析 nginx 日志,用 iptables 封,感觉误封了好多搜索引擎爬虫...
|
34
chocho OP 还有小伙伴吗?我再来问一波
|
35
Northxw 2019-04-04 22:58:30 +08:00
如果很牛逼的话 误伤呢?
|
36
cstackess 2019-04-09 16:27:47 +08:00
安全的博弈,最终是成本的博弈,没有价值的东西才是最安全的
|
38
liwenbest 2019-05-01 13:57:42 +08:00
@xuminzhong 可以加下联系方式吗 QQ 或微信都可以
|