爬虫爬的太多了，大家一般怎么应对这个问题。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2316 天前的主题，其中的信息可能已经有所发展或是发生改变。

之前写过一个帖子，屏蔽大量价值不高的爬虫，就是因为无关爬虫爬的太多了。
当时所有爬虫的请求加到一起大致 300 万，无关爬虫（非重要搜索引擎）就占了 240 万一天。

屏蔽了之后效果很好～
但现在。。。百度、yandex、bing、Google 加起来都快 200 万了。。。其中 Google 占 180 万（之前就 20 万一天）。

想问大家有遇到过这个问题吗，如何应对～

PS：关键的问题是，来自 Google 的流量虽然是主导，但远远没有这么大的比例，会感觉不太划算，但又不敢做策略。

Google

屏蔽

爬

爬虫

17 条回复 • 2020-04-30 18:31:00 +08:00

SukkaW

2018-09-21 13:44:26 +08:00 via Android

应该是爬虫伪装成搜索引擎 UA 了。在服务端配个检查爬虫 IP 的 ASN 吧。

nicoljiang

2018-09-21 14:00:15 +08:00

@SukkaW 这是什么高难度操作啊。。。哭哭

vtwoextb

2018-09-21 14:03:20 +08:00

ip 黑名单，其实就是攻与防，京东的防爬虫已经做的不错了，但是我写了一个更换 ip 的测试，依然防不住 https://github.com/hizdm/dynamic_ip

nicoljiang

2018-09-21 15:15:20 +08:00

@vtwoextb 其实相比被爬数据这个点，我目前更心疼服务器负载和流量。已经连续四天超量采集了，难受。

SukkaW

2018-09-21 15:21:32 +08:00

@nicoljiang 其实还可以检查 Google 爬虫 UA 到访 IP 的 rdns，真 GoogleBot 的 rdns 是会带 googlebot.com 的。

leir

2018-09-21 15:24:04 +08:00 via iPhone

楼主网站啥类型？

zarte

2018-09-21 15:26:05 +08:00

什么站点呀?爬的频率这么高

nicoljiang

2018-09-21 15:40:36 +08:00

@SukkaW 哦哦好像这是个好办法，我看看怎么试一下。

nicoljiang

2018-09-21 15:41:18 +08:00

@zarte
@leir
就普通的内容站，实际上之前并没有这么多，这几天翻了十倍，有点扛不住。

t6attack

2018-09-21 15:55:10 +08:00

也不要乱封。javaeye （ iteye ）曾被封锁过。原因是自己编写的反爬虫系统，把 ISP 内容监控的爬虫给封了。
https://news.cnblogs.com/n/81922/

这是其创始人之前的抱怨文章（ 2007 年）： http://robbin.iteye.com/blog/53075
及分析文章（ 2009 年）： http://www.360doc.com/content/12/0102/17/1997902_176691774.shtml
不知为什么，讲反爬虫的这两篇文章原文被删了。

nicoljiang

2018-09-21 16:45:36 +08:00

@t6attack 这个有点吓人啊。。。ISP 内容监控的爬虫？？？

JungleHi

2018-09-21 16:52:30 +08:00

Google 可以在 search console 里设置限制每天抓取频率和数量
另外建议看一下 URL 参数，不相干的参数可以通过 robots.txt 屏蔽掉，以前遇到一个问题各种 filter 的参数互相叠加，几百万个 URL 组合，ROBOTS.TXT 没有禁止，服务器让 GOOGLE 爬虫搞得差点宕机了

okjb

2018-09-21 16:56:26 +08:00 via Android

啥网站啊，不会是草留根吧，龟龟

nicoljiang

2018-09-21 17:24:12 +08:00

@JungleHi 哦还没弄过 search console，去研究研究

nicoljiang

2018-09-21 17:24:27 +08:00

@okjb 当然不是。。。。

nicoljiang

2018-09-21 17:25:07 +08:00

@JungleHi 但我的 url 其实很干净，只有 0-1 个参数。

quyi679911

2020-04-30 18:31:00 +08:00

nicoljiang 你能将多吉搜索市场化吗，我们用搜索不排斥广告，只是希望不误导期待你的回复！