Apache 纪录里面发现了好多纪录都是百度访问本该 Disallow 的页面,大家有没有碰到过类似的情况?都是怎么解决的...直接屏蔽掉百度爬出么?
1
580a388da131 2016-01-29 03:14:23 +08:00
修改 robots 后有 一段时间内蜘蛛还回来
|
2
Andy1999 2016-01-29 04:28:09 +08:00 via iPhone
谷歌也不遵守,悉听尊便吧
|
3
Khlieb 2016-01-29 04:43:55 +08:00 via Android
坐等大神出来分析
|
4
czb 2016-01-29 05:41:11 +08:00 via Android
有验证是真的 spider 吗
|
5
ryd994 2016-01-29 06:29:32 +08:00 via Android
怎么单独屏蔽百度爬虫?真心要爬你,换个 UA 就行了
要屏蔽就要屏蔽所有(至少绝大部分)爬虫 |
6
DesignerSkyline 2016-01-29 08:19:15 +08:00
只需要上全站 HTTPS+只开启 CHACHA20_POLY1305 即可让多数爬虫敬而远之
|
7
xrui 2016-01-29 08:24:34 +08:00 via Android
对,直接 403
|
8
keinx 2016-01-29 09:03:56 +08:00
蜘蛛是会来爬的,但是不一定收录。
|
9
Hello1995 2016-01-29 09:17:01 +08:00 via Android
@ryd994 大部分搜索引擎爬虫的 UA 里有 spider / bot 字样,屏蔽之,亲测有效。不过少量的爬虫没有这两个字眼的就没办法了。
|
10
xiaoyustudio OP @czb IP 地址查了一下确实是百度的...
|
11
xujif 2016-01-29 11:19:36 +08:00
难道不知道现在很多采集程序都把自己标记为 spider 吗
|
12
libook 2016-01-29 12:15:39 +08:00
我们是用 Nginx 检测 UA ,然后直接内部跳转。如果换 UA 偷偷爬我也没办法。
阴谋论:别的厂商的爬虫用了百度的 UA ? 还有个好方法是用 Angular 路由,百度爬不到#之后的部分。。。 |
13
xiaoyustudio OP |
14
wy315700 2016-01-29 12:38:56 +08:00
robots.txt 只是规定了不收录,但是没有规定不爬取
|
15
TheCure 2016-01-29 12:44:32 +08:00
是的百度不会按照 robot 里面的目录来爬,但是一般情况下不会收录你 disallow 的目录
比如各种网站都会把后台管理目录放到 disallow 里,但是在百度搜索是搜不到这些目录的 如果你 disallow 根目录,那是不会来爬了 估计百度一开始的实现有问题,后来规模大了问题很难修改? |