V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Tomss
V2EX  ›  问与答

为什么所有 AI 生成的对话都是逐字(句)式输出的?

  •  
  •   Tomss · 10 小时 36 分钟前 · 2786 次点击
    非程序员小白提问,即使所有的 AI 底层逻辑都是边计算边输出,那也可以选择在前端缓存几秒后再输出完整结果,但为什么都选择了逐字逐句输出呢? 个人认为非常影响阅读体验,一是输出速度赶不上我阅读速度,二是边看变输出很影响体验,就像不断在刷新屏幕一样,如果等全部输出完再阅读,那为什么客户端不加个选项,选择一次性输出完整内容呢? 我宁愿多等几秒再看结果也不喜欢这种逐字逐句模式。
    42 条回复    2025-02-08 21:20:01 +08:00
    xfn
        1
    xfn  
       10 小时 33 分钟前
    这个问题完全可以问 AI
    yaron1123
        2
    yaron1123  
       10 小时 27 分钟前   ❤️ 1
    是可以做到的,只不过 chatgpt 先做了流式输出,首帧先出来给人的感觉响应会快一点,如果要等全部生成完再一下子出时间不可控。其他产品都无脑抄了而已。
    Configuration
        3
    Configuration  
       10 小时 26 分钟前
    仪式感
    zhangshine
        4
    zhangshine  
       10 小时 24 分钟前
    可能大多数人喜欢。最近的 deepseek 没有隐藏 cot ,用户就很喜欢,CloseAI 隐藏了用户反响没有那么大,也开始学 deepseek 显示 cot 过程了
    retrocode
        5
    retrocode  
       10 小时 24 分钟前   ❤️ 3
    多等几秒?ai 回复长一些是按分钟输出的, 你什么都不显示让用户干等, 这帮货就开始喷人了
    Tomss
        6
    Tomss  
    OP
       10 小时 22 分钟前
    @xfn AI 回答的都技术话术了,太死板,还是没有用人话回答为什么不可以多个选择
    520discuz
        7
    520discuz  
       10 小时 20 分钟前   ❤️ 1
    逐步输出才更像 AI ,如果是一下输出全部显示结果,和普通的搜索引擎有什么区别?
    Tomss
        8
    Tomss  
    OP
       10 小时 20 分钟前   ❤️ 1
    @retrocode 现实中大部份是简短的问答,还是在几秒内可以输出的,如果是长篇的可以分段输出,再让用户点是否继续回答
    codehz
        9
    codehz  
       10 小时 13 分钟前 via Android
    有没有一种可能个性化是要有成本的,现在这套模式差不多是多数人能接受的妥协
    简短的回答搜索引擎也有做,没法和 llm 应用拉出差距
    然后输出中断继续这个会增加计算成本,因为需要一直保存之前的状态
    JamesR
        10
    JamesR  
       10 小时 11 分钟前
    为了好看做的动画效果,后台数据是秒出的。
    cheng6563
        11
    cheng6563  
       10 小时 8 分钟前   ❤️ 1
    LLM 的基本就是你输入一段聊天记录,模型生成下一个字。
    你以为是故意搞的特效么。
    Rickkkkkkk
        12
    Rickkkkkkk  
       10 小时 6 分钟前
    简单理解成,现在诸如 chatgpt 的原理是

    拿到一段文本,预测下一个字符是什么,所以是一个字一个字说的
    tool2dx
        13
    tool2dx  
       10 小时 5 分钟前
    @JamesR 自己本地跑模型,都是一个个字蹦出来的。我还没遇到过秒出的模型。
    andyC
        14
    andyC  
       9 小时 52 分钟前
    因为 load 时间过长, 应用层通过这样的方式优化客户体验
    root71370
        15
    root71370  
       9 小时 10 分钟前 via Android   ❤️ 7
    @JamesR 你真的思考过吗
    javalaw2010
        16
    javalaw2010  
       9 小时 0 分钟前
    大部分用户都不愿意多等几秒的,可能你问的问题很简单,几十个字就完成了,但是一些很复杂的问题,输出可能得几百字上千字,全部等待输出完可能得几分钟了,这谁等的了啊。

    另外大模型推理也是有成本的,在输出一定篇幅之后用户对回答可能不满意,可以选择中断推理,从而节省成本。
    clementewy
        17
    clementewy  
       9 小时 0 分钟前
    流式输出
    mumbler
        18
    mumbler  
       8 小时 51 分钟前   ❤️ 1
    你先回答我一个问题: 你下面即将说的第 10 个字的什么字?

    是不是要先说前 9 个字才知道,人脑推理就是一个字一个字的,大模型作为模仿人类语言的系统也是这样的

    大模型推理效率逐渐提高,groq 可以做到 2000t/s 了,打字机效果反而是负优化,可以一次出结果,但无论多块,推理得一个 token 一个 token 的推
    zhuangqhc
        19
    zhuangqhc  
       8 小时 46 分钟前 via Android
    流式输出,减少第一个 token 的等待时间
    hanqian
        20
    hanqian  
       8 小时 45 分钟前
    前端的流式输出是可以关的,而且这可以规避某些外部审查(比如 gemini 的)

    而且这种输出效果本来就是大多数用户的选择。我记得很清楚 chatgpt3.5 刚出来那会并没有流式输出
    huoshanhui
        21
    huoshanhui  
       8 小时 43 分钟前
    你想想人类打字说话,为什么也是一字一词的输出。(最小有意义的单位)
    z1829909
        22
    z1829909  
       8 小时 18 分钟前 via Android
    可能是个人习惯,你喜欢等待完整一起输出。
    但是现在大模型 toc 的产品都在优化首字出现的延迟,这对用户的留存比较重要。
    如果是不熟悉的产品,等了几秒还不出结果,大部分人就开始关闭页面了。
    catazshadow
        23
    catazshadow  
       8 小时 3 分钟前
    @mumbler 现在人类并不知道人脑是怎么推理的,这些 AI 只是对观察到的“人说话是一个字一个的说的”这个现象的模仿
    dapang1221
        24
    dapang1221  
       7 小时 55 分钟前
    因为本质就是通过一堆输入进去的字,来预测下一个字是什__
    paopjian
        25
    paopjian  
       7 小时 40 分钟前
    因为 chatgpt 创造了这种一字一字蹦的方式, 先驱者是模仿对象
    LevineChen
        26
    LevineChen  
       7 小时 38 分钟前   ❤️ 1
    你可以等几秒再看, 就和早期互联网看视频一样, 觉得卡就等一下缓冲, 现在的生成速度是受限于算力和推理技术, 不是故意让你难受的
    shintendo
        27
    shintendo  
       7 小时 22 分钟前
    你可以选择问完问题就切出去看别的,过一会再回来看结果
    cmdOptionKana
        28
    cmdOptionKana  
       7 小时 19 分钟前
    @catazshadow

    > 这些 AI 只是对观察到的“人说话是一个字一个的说的”这个现象的模仿

    人与 AI 交流时,AI 看不见打字过程,对于 AI 来说,是一整段话发送给它的。
    rcchen123
        29
    rcchen123  
       7 小时 8 分钟前
    可以使用 api 调接口,选择非流式输出。
    这样就会在获得全部结果后,一下子发出来。
    moooooooo
        30
    moooooooo  
       6 小时 57 分钟前
    因为生成式 AI 本质是预测一个字的下一个字应该是什么,所以思考什么的并不存在,这也是「 ai 存在幻觉」的原因
    h272377502
        31
    h272377502  
       6 小时 42 分钟前   ❤️ 1
    @JamesR 不懂其实可以不评论的
    godspeedyou
        32
    godspeedyou  
       6 小时 11 分钟前
    LLM 区别之前的传统模型,主要是具有通用的任务解答能力,而这个能力主要通过预测下一个词元的预训练任务进行学习。
    jadehare
        33
    jadehare  
       6 小时 3 分钟前
    @JamesR 哥们你去了解一下吧,生成逻辑都是结合上下文的,第二个字生成的概率会受第一个字影响,依此类推。大段文字生成能秒出要么模型太小,要么怕不是用的量子计算机呦。
    PainAndLove
        34
    PainAndLove  
       5 小时 54 分钟前
    你和别人对话,你希望对方是一个字一个字的讲,还是一段话一段话的讲?
    183387594
        35
    183387594  
       5 小时 30 分钟前
    https://chat.mistral.ai/chat?q=
    试试这个 够快 就不用 流式输出
    hmxxmh
        36
    hmxxmh  
       4 小时 29 分钟前
    把 stearm 设置成 false 就是一次性输出了,因为回答比较耗时,一次性输出会给人一种卡顿的感觉,而流式输出给人的感官是友好的,像人一样一个字一个字说
    oldlamp
        37
    oldlamp  
       4 小时 27 分钟前 via Android
    不懂不可怕,不懂还强行输出,好可怕。
    我说我自己。
    daimiaopeng
        38
    daimiaopeng  
       2 小时 59 分钟前
    逐字生成生成的速度受限于性能可能不同,即便是相同的长度生成时间不一样,从产品逻辑上来看,一个一个字的看明显好于等待几秒看一段话再
    mbooyn
        39
    mbooyn  
       2 小时 55 分钟前
    人类都有对方正在输入…
    ZennoZ
        40
    ZennoZ  
       1 小时 13 分钟前
    可以自己写一个交互界面,把 stream=false ,也就是把流式输出关掉。现在的 AI 可以干这种程度的编程工作。当然了如果想让界面好看,你可以拆解一个开源的大模型聊天软件,自己改。然后出什么 bug 继续找 AIdebug
    yufeng0681
        41
    yufeng0681  
       1 小时 9 分钟前
    @retrocode #5 超过 3 秒,用户就等不下去了,流式输出能降低用户等待的焦虑感。 大部分人都能一边阅读,一边等后面的内容输出(也就是自己先等 3 秒,然后阅读,能不受后续流式输出的影响)。 至于像题主这种少数人,目前没有更好的交互体验(无法预测这次回答总共需要多少秒,每 N 秒输出一大段内容,你也会提前看完,又处于 wait 状态,体验还是得不到提升,而且中断的 N 秒,假设内容还是断的,你又会说这个是太监段落)。
    lianyue
        42
    lianyue  
       48 分钟前
    你没问过复杂的问题吧 复杂的问题 输出时间 10 分钟都有
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2815 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 14:08 · PVG 22:08 · LAX 06:08 · JFK 09:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.