作为大模型重度使用患者，最大的感受是，目前大模型的准确度是一个非常大的问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

作为大模型重度使用患者，最大的感受是，目前大模型的准确度是一个非常大的问题。

大模型基座就不多说了，日常主要用来创作，但是对于其中涉及到的数据，还是需要人工核查，因为你不确定它说的是不是真的。

即便是 cursor 这样工程化很成熟的产品，在项目大了以后，也会乱改代码。

最明显的特征是新做一个需求，会把旧的需求改到不可用，于是不得不好好 review cursor 改的代码，但是一不留神，旧功能就坏了。

最近有被深深折磨到。

准确度问题解决之前，大模型最大的场景还是创意性工作（写作、绘图等）。

准确度问题怎么解决呢？或许可以通过工程手段来做一层校验，或许只能交给大模型基座去解决。

应该是有解决办法的，可能就在不久之后。

什么时候准确度问题算是解决了呢？

可能是敢让大模型直接刷卡帮你买东西的时候。

毕竟所有人在钱上的准确度，应该是最敏感的。

大模型

准确度

工程手段

18 条回复 • 2025-03-26 16:21:39 +08:00

cmdOptionKana

4 天前

简而言之，使用大模型可以提高效率，但仍需要人类去审核其准确度，这就是人类找工作的缝隙。

nash1000

4 天前

把大模型当做一个人，人都会犯错。
精准的工作需要程序代码做，允许犯错工作的交给人或者大模型做。
给用户写了个 dify 项目，有时会犯错，我就是这么解释的。

wyntalgeer

4 天前

产品经理的需求是一坨屎，程序员就该实现一坨屎。大模型也是一样的，说破天也是需求的问题。

sunshower

4 天前 via Android

所以提示词才很重要

ferock

4 天前 via iPhone

这才是 ai 的本来面目…准确这个概念本来就是相对的，需要有狭窄的范围

信息准确，本来就是最难的，比如，24 年问美国总统是谁，和 25 年问答案就不一样。
比如，水浒传的作者是谁，也是有争议的。

再说代码，上下文窗口太小和 llm 没有记忆，向量搜索准确度还需要提高，这些都会导致 ai 没办法顾全大局

NoOneNoBody

4 天前

AI 还很遥远，现在的 AI 只是大家叫的俗称，因为学名“大语言模型”太拗口

cijianzy

4 天前

@sunshower 还是不能迷信提示词，提示词并不能改变 AI 本身幻觉的问题。

wudaye

4 天前

尽管从 chatgpt3.5 横空出世到现在已经很久了，目前的大模型本质还是在输出“看起来最像真的的答案”，缺乏上下文结合能力，毫无泛化能力，毫无逻辑推演能力，说白了就是在蒙，最要命的是如果问点它明明没掌握过的知识，他也要尝试胡乱作答一通，比如编造不存在的类库或规则，对人产生很大的误导

ration

4 天前

用 AI 写代码，精确的事情交给代码解决，没法精确的事情交给 AI 。我在想以后 AI 有没有可能存储已经确定的解决方案或者说不断的优化方案达到最优解

Donaldo

4 天前

如果它又快又准，那咱们就真失业咯

RoccoShi

4 天前

相对的解决思路：temperature 调成 0

cnrting

4 天前 via iPhone

而且编得跟真的一样

Skifary

4 天前

目前只使用大模型解决一次性问题，工程型问题大模型无能为力

Felldeadbird

4 天前

现在 AI 是解决了 0 到 1 的问题。1 后面的它目前就比较吃力了。

代码被删掉正是目前 AI 的能力限制了，它只会为了解决当前问题而存在。项目越大这个问题越严重。还不如回到早期问 AI 粘贴代码试错来得快。

图片生成也是如此，大方向的资源生成确实没问题了，但是你要 AI 进行细节修改。它就很难做到了。例如：游戏中人物一套技能动作。AI 就不能胜任了。我现在做法就是 AI 生成人物后，后面动作我 PS 绘制一点。然后再交回 AI 去补充细节（缺点就是细节部分绘制得很差，只能说能用）。

paopjian

4 天前

AI 幻觉问题在大工程面前无能为力啊, 就好像屎山代码, 有时候你也不知道改旧代码会带来什么奇怪问题, 更别提 AI 这种上下文受限知识容量有限的了, 所以 cursor 开发新功能是很爽, 但是在已有项目基础上再加东西就会引入很多麻烦

NewMoorj

4 天前

大部分人其实每天代码量没多少，大部分时间都是在构思如何实现，可以直接问 AI ，参考它的思路。

然后自己再亲手写一遍，这样比较合适。

bigtan

4 天前

我都是大概知道怎么做，然后让大模型帮我实现。一方面是快，另一方面是，他基本上能够提供接近最佳实践的代码风格。

lnbiuc

4 天前

我用下来 R1 准确率是最高了，不到 40%估计，自己寻思时间越长准确率越高，但是有点不听话，让他不要改非要自己改。
用了 gpt 和 claude ，瞎编严重