为什么所有 AI 生成的对话都是逐字（句）式输出的？

非程序员小白提问，即使所有的 AI 底层逻辑都是边计算边输出，那也可以选择在前端缓存几秒后再输出完整结果，但为什么都选择了逐字逐句输出呢？个人认为非常影响阅读体验，一是输出速度赶不上我阅读速度，二是边看变输出很影响体验，就像不断在刷新屏幕一样，如果等全部输出完再阅读，那为什么客户端不加个选项，选择一次性输出完整内容呢？我宁愿多等几秒再看结果也不喜欢这种逐字逐句模式。

yufeng0681

255 天前

@retrocode #5 超过 3 秒，用户就等不下去了，流式输出能降低用户等待的焦虑感。大部分人都能一边阅读，一边等后面的内容输出（也就是自己先等 3 秒，然后阅读，能不受后续流式输出的影响）。至于像题主这种少数人，目前没有更好的交互体验（无法预测这次回答总共需要多少秒，每 N 秒输出一大段内容，你也会提前看完，又处于 wait 状态，体验还是得不到提升，而且中断的 N 秒，假设内容还是断的，你又会说这个是太监段落）。

lianyue

255 天前

你没问过复杂的问题吧复杂的问题输出时间 10 分钟都有

katos

254 天前

请看这个视频学习。关于 AI 的深度研究：ChatGPT 正在产生心智吗？
https://www.bilibili.com/video/BV1uu4y1m7ak

chengxixi

254 天前

Transformer 模型（如 GPT ）本质上是自回归模型，必须按顺序逐个生成 token （字 / 词）。每个新 token 的生成都严格依赖前文，无法跳跃或并行生成后续内容

nash

254 天前

让你觉得它在很卖力的输出

moefishtang

254 天前

可以选择流式输出和非流式输出的
一个立等可取，一个得等全部输出完才有结果
非流式输出一个常见的应用场景是沉浸式翻译这类，翻译结果都是一行一行整个输出的

secondwtq

253 天前

路径依赖，一开始 ChatGPT 就是这样的，后人做的时候肯定要“对标”ChatGPT ，“超越”ChatGPT ，“弯道超车”ChatGPT 。ChatGPT 一开始就有的特技你没有，岂不是面子很挂不住？没看现在连 API 都是统一的 OpenAI 格式。
你自己去写客户端的话就会发现还是直接输出简单，流式输出反而有额外的成本（我的做法是加了个转圈动画，因为这玩意甚至没法做进度条 ...）。

至于好不好看你怎么理解，现在的 chatbot ，比如我常用的 ChatGPT 和 DeepSeek ，是把用户的消息用气泡显示，LLM 的消息用无装饰的文本框显示。显然气泡是 IM 里面抄过来的，但是 LLM 消息没有用气泡说明这个 chat 的逻辑和一般 IM 的 chat 不一样，这个设计其实就隐含了用户的消息一般比较简短随意，LLM 的消息比较啰嗦全面的一个条件（有时候很麻烦，因为长 prompt 就很难处理，手机上连换行都打不了）。现实 IM 里面是不会给你随时显示对方打的字的，因为对方有可能会改，有可能有没来得及删的敏感信息，甚至有可能根本没在打字，所以你跟人网上聊天就不会想能不能像 LLM 一样流式输出，IM 中确实有“流式”，不过一般体现为连续发送多个简短消息，但是 LLM 现在不会这么干，至少直接推理做不到。让用户等的话就会出现 IM 经典场景：“？”——并不是，因为用户在此期间甚至不能发新消息 ...

反正现在这个状态是不符合 IM 图灵测试的标准的，当搜索引擎用吧 ...

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1109860