公司反爬虫产品测试，目前处于 alpha 版本，正在寻求测试客户，无奈社区问一波，有需求的伙伴看过来

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2162 天前的主题，其中的信息可能已经有所发展或是发生改变。

反爬虫产品，主要为网站提供反爬虫安全防护，目前有一些业务方集成在自己的业务中去做，我们提供的是一整套防护方案，包括爬虫发现和拦截手段，部署结构采用流量反代的模型，既不影响原业务的开展，也可以拦截大量脚本，模拟器流量。

前期测试阶段主要通过合作的形式，alpha 版本提供免费测试名额。

第 1 条附言 · 2019-04-02 11:54:46 +08:00

wechat

第 2 条附言 · 2019-04-15 16:45:45 +08:00

添加微信号：17671601524 把你拉进群

爬虫产

Alpha

测试

反代

38 条回复 • 2019-05-01 13:57:42 +08:00

Abbeyok

2019-04-02 11:14:07 +08:00 via Android

不如发个 Demo，让大家测试一下是否真的能防爬虫

iannil

2019-04-02 11:14:54 +08:00

@Abbeyok #1 为什么你回复我能看到你的表情

StarRED

2019-04-02 11:16:52 +08:00 via Android

🙃

Abbeyok

2019-04-02 11:17:05 +08:00

@iannil 可能这就是心有灵犀

chocho

2019-04-02 11:17:47 +08:00

这几天陆续会放出一些 demo 和接入方式给大家

chocho

2019-04-02 11:45:47 +08:00

感兴趣的扫码，进群，里面主要交流测试网站和测试接入，也可以在线提问，可以交流反爬虫知识，测试阶段也可能会有些有偿的竞赛，不排除设奖金做爬虫攻防

[!text]( https://bob.36deep.com/assets/others/antirobots.jpg)

xuminzhong

2019-04-02 12:03:53 +08:00

我是做爬虫的，除了 100% 弹出的图形验证码，还没有我抓不到的。

lhx2008

2019-04-02 12:10:13 +08:00 via Android

外挂反爬虫原理也不多，不知道有没有什么新意？反代有没有性能和可用性问题？

itskingname

2019-04-02 12:35:54 +08:00

做爬虫的同学，大家不要帮他发展反爬虫产品。

chocho

2019-04-02 12:42:44 +08:00

@lhx2008 反代有性能损耗，可用性不用担心

chocho

2019-04-02 12:43:42 +08:00

@itskingname 哈哈哈，安全攻防都是存在的，即时我们不做，也是有人在做，另外爬虫这个事情，主要防止恶劣行为，不是所有的东西都是防护的

chocho

2019-04-02 12:44:50 +08:00

@xuminzhong 哈哈，那你们很厉害啊，请高抬贵手

tingyunsay

2019-04-02 13:11:54 +08:00

可以挂出来，大家一起给你测测😂

aver4vex

2019-04-02 13:14:52 +08:00

挂出来，让我们测试下效果。

lusi1990

2019-04-02 13:17:31 +08:00 via Android

赶快挂出来测试下

Johnson66

2019-04-02 13:32:47 +08:00

#7 加一除非让用户都访问不了，否则没有爬不了的~

szpShang

2019-04-02 14:13:44 +08:00

淘宝现在访问都要用户登录了。如果频繁看评论信息还会被限制了。那现在你们还会像以前访问淘宝吗？但是爬淘宝的数据还是可行的。只是成本增加(需要多个账号和新的调度规则去爬取)。
反爬的东西只会增加用户的反感，然后增加爬取的成本。等到用户量很少的时候，基本上就不用爬取了(已经没有意义了)。
计算机的原理就是要想看到数据。这个数据必须存储到本地机器上。就好比邮箱钥匙放在邮箱里面，要想开邮箱必须先拿到钥匙，要想拿到钥匙必须先开邮箱。反爬是否能行呢。

kisshere

2019-04-02 14:16:56 +08:00

@xuminzhong 就是弹出图形验证码，都能破，除了 recaptcha，是真没办法

c4f36e5766583218

2019-04-02 14:22:34 +08:00

@kisshere 广义来讲都能破，时间问题吧，2333 我瞎说的
[破解谷歌最新 ReCaptcha 成功率高达 91%的验证反制技术]( https://zhuanlan.zhihu.com/p/53970061)

chocho

2019-04-02 14:26:31 +08:00

@c4f36e5766583218 是的广义上面来讲纯前段的反爬虫都是可以破解的，就是时间问题，所以需要动态对抗，或者形式转嫁

szpShang

2019-04-02 14:26:35 +08:00

@c4f36e5766583218 难度越高，用户体验就会差。体验差，用户量就会减少。一个应用如果用户量少，数据也就失去价值，那还爬它作甚。

chocho

2019-04-02 14:28:29 +08:00

@szpShang 是的，但是我们这个不会搞那么复杂，正常情况下，用户是不会感觉到有防护的，主要针对爬虫来讲门槛会提高一些

chocho

2019-04-02 14:29:50 +08:00

@Johnson66 是这样的，但是不会让爬虫那么轻易的就爬到数据，一方面主要是保障业务稳定，另外那些人工打码操作的，就没法防御

szpShang

2019-04-02 15:00:22 +08:00

@chocho http 本来就是无状态的协议。就是永远也不知道当前的协议是什么状态的。
就好比计算机本来设计规则让水从高处向低处流。而你却在这个设计规则上去忤逆这个设计让水从低处向高处走。
互联网的技术都是防止数据传输时候泄漏。现在变成要识别客户端利用刚浏览的数据对发布者是否有弊端。
抛开如何繁琐的 cookie 获取历程的技术问题（完全可以人工操作掉）。这个业务真的是有意义吗。

以前爬取携程时候，如果爬取太频繁，价格就会故意错乱。个人猜测杀熟技术就是源于此。你这个业务真的是识别爬虫还是识别老用户，为杀熟技术提供温床。

chocho

2019-04-02 15:06:59 +08:00

@szpShang 分析和很到位，这种的太敏感的数据，很多公司做了不少的账号权限，可以规避这种问题，与反爬虫要解决的安全风险问题有重叠，cookie 这些都是不错的防御方案，但是明显如你所说，完全在前端做太多的文章是没有意义的，可能需要一些新的思路来解决这个问题