网站经常被一些人恶意采集,烦不胜烦,也没什么好的办法,以前网上查到云锁的防 cc 功能可以防采集
就想到了 云锁的 防 cc 功能,实验结果,确实可以防采集,
但是也发现了一些事情,有些比较疑惑
① 因为我设置的请求规则比较严格,所以屏蔽了不少 ip 后来查询得知,是阿里云的 ip (也就是神马搜索)和 360 搜索的蜘蛛 ip 比较多,屏蔽多了没事吧,查询资料也发现 他们两家的蜘蛛太疯狂,
② 为了防采集,一天也屏蔽了不少疑似采集的 ip 其中 比较多的是 爬取 https://www.***.com/news/page/1 的比较多,但是 网站是没有 /page/1 的 大家都知道 目录第一页就是 https://www.***.com/news 第二页直接是 https://www.***.com/news/page/2 是不是爬取了 page/1 的都是采集我网站的 ip 呢
1
newworld 2017-12-09 20:01:22 +08:00
你看请求参数判断行为啊 采集的肯定和人的正常访问不同的
|
2
gamexg 2017-12-09 20:36:18 +08:00
你看一下从第二页点击 1 后 url 是什么,大部分系统这时候都会访问到 /page/1。
|
3
ybyqiji OP @gamexg 从第二页点击 1 后 直接就是目录网址 不会出现 /page/1 的 WordPress 网站 就像这个 http://www.daqianduan.com/design/page/2 第一页 就是 http://www.daqianduan.com/design ,就算访问 http://www.daqianduan.com/design/page/1 也会跳到 http://www.daqianduan.com/design 一般只有采集会出现 page/1 但是 云锁里面屏蔽 page/1 的的 ip 有点多了 几十上百个了,有那么多采集我的吗?
|