我们输入 Google 验证码的时候是不是在为它训练图像识别模型?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Google Play

› Google Fi

› Google Developers Channel

› Google 全球透明度报告

› 9to5Google

这是一个创建于 1444 天前的主题，其中的信息可能已经有所发展或是发生改变。

感觉每次 google 验证码里的图片大多为交通灯、巴士、斑马线、树木等等路上物体是不是谷歌在利用验证码来训练他的模型间接来应用到 Google 地图、汽车自动驾驶等等领域有时点击正确也会说选错猜想大多人都输入同一个错误时就会矫正它自己的模型?

验证码

Google

模型

输入

21 条回复 • 2021-02-07 13:58:50 +08:00

miku831

2021-01-20 13:19:47 +08:00

https://b23.tv/0Qy0zt
视频有提到

whitehack

2021-01-20 13:25:04 +08:00

别的验证码不知道. google 的肯定是的

mokeyjay

2021-01-20 13:27:24 +08:00

你好，是的，这已经是个公开的秘密了
今年 6 月起谷歌相册不再无限空间，小道消息表示这也是因为谷歌已经训练够了

tiramice

2021-01-20 13:28:46 +08:00

不然你以为 Google 为啥要收购 reCAPTCHA ？

promise365

2021-01-20 14:25:07 +08:00

肯定啊

faceRollingKB

2021-01-20 14:40:07 +08:00

这就有个问题了，验证码肯定是有标准答案的，用户点击提交的答案用来做什么呢？对比 ai 跟人哪个正确率更高么？

Aaralyn

2021-01-20 14:43:10 +08:00

这又不是啥新鲜事，微软 CEO 发布会都吐槽过。

bruce00

2021-01-20 14:54:30 +08:00

很早以前的单词验证码就是在训练，两个单词，其中一个是能被机器识别的用于验证，另一个是还未能被识别的，将用户的输入作为参考。现在的 reCAPTCHA 应该也是这个原理

pkoukk

2021-01-20 15:05:41 +08:00

@faceRollingKB 了解一下 reCAPTCHA 的原理。
假设图案一共 9 副，让你选出带有汽车的图像。
其中有 3 副 google 是知道答案的，剩下 6 副不知道，如果那 3 副你答对了，系统会认为你剩下 6 副也答对了
那 6 副的数据就可以训练算法

nexo

2021-01-20 16:22:06 +08:00

@Aaralyn
@promise365 但是这样搞经常很不准体验很差

1462326016

2021-01-20 16:26:52 +08:00

@pkoukk 我记得貌似剩下的六个会进行多个人交叉验证，也就是说这六个图像有十个（或者其他数字）人认为它是汽车，谷歌才会把它认定为汽车，因为谷歌会出错，单个人也会出错，但是好多个人同时出错的几率就很小了，人数越多越准确。

jdhao

2021-01-20 16:37:31 +08:00 via Android

@nexo 大数据，一个人不准，但是奈何谷歌用户大，多数用户的选择可以认为是正确的标签，不用要求 100% 完美，只要大部分时候正确就行了

Sapp

2021-01-20 16:39:00 +08:00

@faceRollingKB 其实不一定的，我点验证码就发现过有些我点错了还过了

juded

2021-01-20 16:39:19 +08:00

是，所以我每次都故意点错一两个。

boris93

2021-01-20 16:40:35 +08:00 via Android

@faceRollingKB 并不是
有一段时间，验证码图像是书上扫描下来的一句话
Google 不确定 OCR 结果完全正确，就放到验证码上，我们输验证码的时候就在帮 Google 确认和纠正 OCR 结果

faceRollingKB

2021-01-20 17:08:08 +08:00

@boris93 楼上有人提到的一部分已知一部分未知的验证码，利用已知部分进行验证、未知部分用于训练的说法还说得过去，不过你说的这种我觉得就很难实践了

CEBBCAT

2021-01-20 17:47:37 +08:00

楼主还是挺厉害的，我不是嘲讽，独立发现这一事实真的挺厉害

boris93

2021-01-20 17:56:45 +08:00 via Android

@faceRollingKB 曾经确实有这件事来着，协助 Google 把书籍数字化的项目

LZSZ

2021-01-20 17:58:08 +08:00

@faceRollingKB 用在自动驾驶上面

no1xsyzy

2021-01-21 11:34:00 +08:00

@boris93 @faceRollingKB 书籍电子化是 reCAPTCHA 公益(?)项目原本的用途……
然后 Google 收购了，逐渐搞成现在这个样子

LinusXu

2021-02-07 13:58:50 +08:00

是真的（ doge
https://imgs.xkcd.com/comics/self_driving.png

我们输入 Google 验证码的时候 是不是在为它训练图像识别模型?

我们输入 Google 验证码的时候是不是在为它训练图像识别模型?