AI 大模型时代，个人隐私的获取比以前更加容易

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 38 天前的主题，其中的信息可能已经有所发展或是发生改变。

AI 大语言模型我们在使用的时候都是明文过去的，大厂的 AI 工具都需要实名手机号登录后使用，那这样岂不是个人的数据大厂们都能比以前更加准确的了解吗？根据这些准确的个人数据分析后再做定向的一些广告或者其他操作岂不是更容易，感觉比以前通过网页或者 APP 获取用户数据来的容易多了。甚至让普通开发者获取用户数据的门槛也降低了，搞一个 AI 应用，只要用户使用，不需要通过隐私条款，用户的隐私在不经意间就通过 Prompt 的方式发送到了开发者的服务器。

第 1 条附言 · 38 天前

大家也可以畅想一下根据大模型的输入可以如何分析一个用户，头脑风暴一下，看看可以通过什么分析出什么，例如通过一个视频里的物品、场景，或者图片中的内容，在不考虑技术实现难度的情况下如何挖掘。

隐私

28 条回复 • 2025-02-27 13:56:14 +08:00

zjsxwc

38 天前

我花钱买了你的 api 调用次数，你还要卖我隐私，来给我发定向广告？

xiaohupro

38 天前

@zjsxwc 哈哈哈，有职业道德的应该不会吧，应该～～～

wysnxzm

38 天前

你用输入法不一定在用 ai,但是用 ai 一定得用输入法
你是不是不知道输入法的盈利就是靠卖个人数据?

xiaohupro

38 天前

@wysnxzm 输入法我只用自带的，搜狗这类的肯定会有用户隐私收集

masterArcher

38 天前

@wysnxzm ≡(▔﹏▔)≡输入法拿隐私数据甚至不加密，参考三星搜狗定制版（）

TellMeWHY

38 天前

有可能透露个人隐私信息的咨询我都用外网 ChatGPT 或 Gemini ，一些国内通用政策咨询 DeepSeek ，合理利用 GFW 墙，两边都能防。

LaTero

38 天前 via Android

"大厂的 AI 工具都需要实名手机号登录后使用"那就别用这些“大厂”。而且国内这些大厂效果也不好啊，也就是便宜。

clf

38 天前

AI：有没有可能，你的数据已经泄露成筛子了，你和我对话的这点东西，我早知道了，知道的还比你清楚。没主动给你提建议已经算我克制了，不想吓到你。

ndxxx

38 天前

这个帖子怎么还没触发 [微信输入法] 使用汇报大军的出现？排面呢 🤡

dajj

38 天前

你的想法很准确，可以去干产品经理了

xiaohupro

38 天前

@clf 哈哈哈，想一想以后 AI 可以根据历史对话记录生成一些“定向想给你看到的回答”的话，感觉那才是真正牛 X 的广告

xiaohupro

38 天前

@ndxxx 刚出来的时候我就准备试用，但是在下载的过程中，走到安装中的时候我毅然决然的取消安装了，因为我想到了一些事情……，哈哈哈

TimePPT

38 天前

对广告推荐来说，从你问大模型问题里挖掘喜好搞广告，还不如你刷小红书/抖音 feed 流点击查看的反馈收集来得直接。
以及，就算输入 Query 分析的用户画像，Google / 百度都做了十几二十年了。又不是 LLM 时代才有的新鲜玩意。

TimePPT

38 天前

@TimePPT 还有，绑定手机号是有关部门规定，强制实行也十多年了，跟大模型也没啥关系。反而是，有司现在要求各家 LLM 加明水印、暗水印，方便回溯来源影响会更直接。

xiaohupro

38 天前

@TimePPT 过去的收集比较直接，通过点击、收藏等操作直接判断，大模型这种通过输入的方式其实不是最主要的，主要是现在各大平台都开始支持多模态，用户的图片、文档、视频等这些文件获取途径比以前更加直接和方便了，我感觉通过文件分析一个用户会更加精准，之前的方式会简单的分析一个用户的兴趣和爱好，但是更深一点的就不好挖掘了，例如真实的职业、日常生活的场景等等更加具象化的标签，例如通过文件大概率可以精准的推断出职业，照片和视频可以分析用户的生活场景以及根据日常视频和照片中的物品判断这个用户的消费偏好和消费等级等等，可以分析的内容太多了。

TimePPT

38 天前

@xiaohupro 从业者表示，根本不用这么麻烦，几个大厂通过非 LLM 做的用户画像模型，精准度在 90%以上。当年我们在全国随机抽几百个用户找人做了用户调研访谈，结果中年龄、性别、职业、泛爱好这种纬度，都准得一批。

TimePPT

38 天前

@xiaohupro 另外，多模分析也不是今天才有的，抽帧截图做实体识别，七八年前业内就开始做了，从搜索推荐到内容审核现在广泛应用。只是现在这波让这些技术更多暴露在了非从业者眼前罢了。

xiaohupro

38 天前

@TimePPT 感谢普及，确实以前我从事的开发中没有真么深的挖掘过用户

AndrewAdam

38 天前

ds 私有化部署或许能解？

TimePPT

38 天前

@xiaohupro 不用客气，也不是啥普及，只是感觉最近拿着大模型锤子找钉子的人越来越多了😂

另外补充下，我第一条想表达其实是，虽然大模型能获取到更多用户主动发送的信息，但其实，这种挖掘并没有比传统方法高到哪里去。
主要原因也还在：
1. 和 LLM 对话的信息量级远少于在线推荐系统的反馈，也就是说，这类特征更加稀疏——从使用频次、时长上来说都是这样。
2. 非结构化数据挖掘整理到结构化，这个成本比直接的结构化数据要高。
3. 对普通用户来说，张口表达把问题问清楚，把 context 讲清楚，这个要求远高于让他们去点/划表达喜恶——咱们冷静想想，搜索引擎出现二十年了，真正善用搜索的人有多少？简单几个 Keyword 都数不清楚的普通人，有几个能明白现在 LLM 的那些 Prompt 技巧？

NoOneNoBody

38 天前

肯定的
你的工作报告会去网上发帖么？但你会交给 AI 润色，AI 就知道你做过什么事了
日记呢？
公司的代码可能 github 都不会放上去，但给不给带 AI 的 IDE 读呢？

“隐私换便利”这句话很无耻，但却又很现实

R4rvZ6agNVWr56V0

38 天前

作为个体，没办法。要么就像 RMS 那样拒绝非自由软件/硬件

xiaohupro

38 天前

@GeekGao 本地化部署其实可以解决一部分问题，但是就只能使用较小规模参数的模型了

R4rvZ6agNVWr56V0

38 天前

@xiaohupro 牺牲了效率，绝大多数人不会这么选择的。

youthfire

38 天前 via iPhone

几乎是一定的。现在早期，成本高，调个 api 要花钱。以后可能就是靠卖数据了。所以国内的就斟酌着用吧。

WorseIsBetter

37 天前

@GeekGao #22

LLM 应用其实就是新时代的 SaaSS[^1]，隐私问题只是其中的弊端之一。

而且不像传统 SaaSS ，稍微学习折腾下就可以找到本地可用的替代品，LLM 应用是掌握在拥有拿钱堆出来的强大算力的 big corp 手中的，就算把所有的训练数据和程序都「开源」出来（事实上还没有），也不是一般人能用得起的，用几万块钱的顶级 PC 目前也只能跑个别人训练好的小模型玩玩。

不只一次听人说，LLM 就是资本利用自由软件来摧毁自由软件的「阳谋」。这话虽偏颇但不无道理。毕竟 LLM 训练时必定用到了海量的自由软件的源码和文档，反过来却没见到 LLM 对自由软件社区作出过什么突出贡献。至于资本引导控制用户的思维方式，让他们心甘情愿地用自由和隐私换取 LLM 的所谓「便利」，也就不必多提了。

虽然我从来不在自由软件社区以外的地方公开反对别人依赖 LLM 来做事，但在自己的工作和生活中是坚决抵制的，而且不认为这一点点的「不便利」对我而言是一种损失。

---

[^1]: https://www.gnu.org/philosophy/who-does-that-server-really-serve.html

R4rvZ6agNVWr56V0

37 天前

@WorseIsBetter 😄

MaxJin

37 天前

根据经验来说，一定会，就是希望推之前产品经理能像张小龙那样，能往后拖就拖