气人的 Google，蜘蛛乱抓页面

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Google Play

› Google Fi

› Google Developers Channel

› Google 全球透明度报告

› 9to5Google

这是一个创建于 1726 天前的主题，其中的信息可能已经有所发展或是发生改变。

因为是个人网站，很多地方比较马虎，因为用这 chrome，google 就把我的测试页面抓取了，这些测试页面只在 chrome 上打开过，从来没在网上公开过。

Chrome

页面

Google

气人

22 条回复 • 2020-04-07 12:53:07 +08:00

anUglyDog

2020-04-04 12:48:05 +08:00

还算合理吧,毕竟是一家的.

Tianao

2020-04-04 12:49:02 +08:00

请正确配置 robots.txt 。

mrchi

2020-04-04 12:49:53 +08:00

测试页面公网能访问吗？你写 robots.txt 了没？

Tianao

2020-04-04 12:51:51 +08:00

另请参考 developers.谷歌.康姆 /search/reference/robots_meta_tag 。

mnssbe

2020-04-04 12:52:21 +08:00 via iPhone

chrome 里有个设置会把 url 发送给 google，你可以反选

wolfan

2020-04-04 13:00:28 +08:00 via Android

roobts 对国产作用不大，但对国外的多少比国内的强。

dot2017

2020-04-04 13:32:36 +08:00

你这个测试页面上有外链出去到别的被索引过的页面吗，google bot 抓取展现是双向的

deplives

2020-04-04 14:23:46 +08:00

是否正确配置 robots ？如果有，再来吐槽。如果没有，请找自己的原因

dobelee

2020-04-04 15:13:57 +08:00 via iPhone

能公网访问就别抱怨。。

pinews

2020-04-04 20:07:16 +08:00

@mnssbe 隐私和安全性里的东西我都没有开启。
@anUglyDog 开发人员有时会测试一些敏感信息，这也能被抓取？

@dot2017 这。。。，好吧，有的。

pinews

2020-04-04 20:08:55 +08:00

@dot2017 但是 google 怎么可能知道，除非还是通过 chrome 记录的，我没开启啊

iasuna

2020-04-04 20:12:52 +08:00 via iPhone

@pinews 看来是没设置 robots.txt 那既然在公网上了也没啥不能抓取的啊

daozhihun

2020-04-04 20:17:37 +08:00 via Android

你没设 robots，google spider 咋知道哪些是敏感的

alan0liang

2020-04-04 20:18:47 +08:00 via Android

Google 把我们 gitea 一大堆 repo 的所有语言版本都索引了😂

aureole999

2020-04-04 23:07:26 +08:00

@pinews 比如你链接的页面是属于 Google 的或者有 Google ads，analytics 之类的，那 Google 肯定能拿到 referer 啊，referer 就是你自己的页面了。

binux

2020-04-04 23:30:03 +08:00 via Android

把 Google 换成 360 浏览器再来看看评论

miaomiao888

2020-04-05 00:10:33 +08:00

@binux 你这种叫啥来着？算了还是给你拉红一下

mxalbert1996

2020-04-05 01:21:22 +08:00 via Android

你有敏感信息就不要放公网上，放公网上就设个访问限制，你放公网上又不设访问限制又不写 robots 被抓了还怪人家？

binux

2020-04-05 02:26:38 +08:00 via Android

@miaomiao888 #17 人的本质就是双标
https://m.mydrivers.com/newsview/239408.html?ref=

ksdd521lr

2020-04-05 02:32:54 +08:00 via Android

google 的骚操作哈哈

laqow

2020-04-05 09:09:23 +08:00 via Android

我理解这个事实上都不用从 chrome 抓，在注册域名的时候就抓了，甚至可能你拿 8888 做 dns 时候就抓了。

pinews

2020-04-07 12:53:07 +08:00

我把我的意思明确一下，本质上不是蜘蛛抓取未公开的页面，
而是 google chrome 将我的访问记录下来，并公布在网络上了，恰好是我的自己的网站，所以正好发现了。