1
SukkaW 2018-09-21 13:44:26 +08:00 via Android 4
应该是爬虫伪装成搜索引擎 UA 了。在服务端配个检查爬虫 IP 的 ASN 吧。
|
2
nicoljiang OP @SukkaW 这是什么高难度操作啊。。。哭哭
|
3
vtwoextb 2018-09-21 14:03:20 +08:00
ip 黑名单,其实就是攻与防,京东的防爬虫已经做的不错了,但是我写了一个更换 ip 的测试,依然防不住 https://github.com/hizdm/dynamic_ip
|
4
nicoljiang OP @vtwoextb 其实相比被爬数据这个点,我目前更心疼服务器负载和流量。已经连续四天超量采集了,难受。
|
5
SukkaW 2018-09-21 15:21:32 +08:00 4
@nicoljiang 其实还可以检查 Google 爬虫 UA 到访 IP 的 rdns,真 GoogleBot 的 rdns 是会带 googlebot.com 的。
|
6
leir 2018-09-21 15:24:04 +08:00 via iPhone
楼主网站啥类型?
|
7
zarte 2018-09-21 15:26:05 +08:00
什么站点呀?爬的频率这么高
|
8
nicoljiang OP @SukkaW 哦哦 好像这是个好办法,我看看怎么试一下。
|
9
nicoljiang OP |
10
t6attack 2018-09-21 15:55:10 +08:00 1
也不要乱封。javaeye ( iteye )曾被封锁过。原因是自己编写的反爬虫系统,把 ISP 内容监控的爬虫给封了。
https://news.cnblogs.com/n/81922/ 这是其创始人之前的抱怨文章( 2007 年): http://robbin.iteye.com/blog/53075 及分析文章( 2009 年): http://www.360doc.com/content/12/0102/17/1997902_176691774.shtml 不知为什么,讲反爬虫的这两篇文章原文被删了。 |
11
nicoljiang OP @t6attack 这个有点吓人啊。。。ISP 内容监控的爬虫???
|
12
JungleHi 2018-09-21 16:52:30 +08:00
Google 可以在 search console 里设置 限制每天抓取频率和数量
另外建议看一下 URL 参数, 不相干的参数可以通过 robots.txt 屏蔽掉,以前遇到一个问题各种 filter 的参数互相叠加,几百万个 URL 组合,ROBOTS.TXT 没有禁止,服务器让 GOOGLE 爬虫搞得差点宕机了 |
13
okjb 2018-09-21 16:56:26 +08:00 via Android
啥网站啊,不会是草留根吧,龟龟
|
14
nicoljiang OP @JungleHi 哦 还没弄过 search console,去研究研究
|
15
nicoljiang OP @okjb 当然不是。。。。
|
16
nicoljiang OP @JungleHi 但我的 url 其实很干净,只有 0-1 个参数。
|
17
quyi679911 2020-04-30 18:31:00 +08:00
nicoljiang 你能将多吉搜索市场化吗,我们 用搜索 不排斥广告,只是希望不误导 期待你的回复!
|