为什么所有 AI 生成的对话都是逐字（句）式输出的？

非程序员小白提问，即使所有的 AI 底层逻辑都是边计算边输出，那也可以选择在前端缓存几秒后再输出完整结果，但为什么都选择了逐字逐句输出呢？个人认为非常影响阅读体验，一是输出速度赶不上我阅读速度，二是边看变输出很影响体验，就像不断在刷新屏幕一样，如果等全部输出完再阅读，那为什么客户端不加个选项，选择一次性输出完整内容呢？我宁愿多等几秒再看结果也不喜欢这种逐字逐句模式。

huoshanhui

254 天前

你想想人类打字说话，为什么也是一字一词的输出。（最小有意义的单位）

adgfr32

254 天前

可能是个人习惯，你喜欢等待完整一起输出。
但是现在大模型 toc 的产品都在优化首字出现的延迟，这对用户的留存比较重要。
如果是不熟悉的产品，等了几秒还不出结果，大部分人就开始关闭页面了。

catazshadow

254 天前

@mumbler 现在人类并不知道人脑是怎么推理的，这些 AI 只是对观察到的“人说话是一个字一个的说的”这个现象的模仿

Enivel

254 天前

你可以等几秒再看, 就和早期互联网看视频一样, 觉得卡就等一下缓冲, 现在的生成速度是受限于算力和推理技术, 不是故意让你难受的

cmdOptionKana

254 天前

@catazshadow

> 这些 AI 只是对观察到的“人说话是一个字一个的说的”这个现象的模仿

人与 AI 交流时，AI 看不见打字过程，对于 AI 来说，是一整段话发送给它的。

rcchen123

254 天前

可以使用 api 调接口，选择非流式输出。
这样就会在获得全部结果后，一下子发出来。

moooooooo

254 天前

因为生成式 AI 本质是预测一个字的下一个字应该是什么，所以思考什么的并不存在，这也是「 ai 存在幻觉」的原因

godspeedyou

254 天前

LLM 区别之前的传统模型，主要是具有通用的任务解答能力，而这个能力主要通过预测下一个词元的预训练任务进行学习。

jadehare

254 天前

@JamesR 哥们你去了解一下吧，生成逻辑都是结合上下文的，第二个字生成的概率会受第一个字影响，依此类推。大段文字生成能秒出要么模型太小，要么怕不是用的量子计算机呦。

Lanayaaa

254 天前

你和别人对话，你希望对方是一个字一个字的讲，还是一段话一段话的讲？

hmxxmh

254 天前

把 stearm 设置成 false 就是一次性输出了，因为回答比较耗时，一次性输出会给人一种卡顿的感觉，而流式输出给人的感官是友好的，像人一样一个字一个字说

labubu

254 天前

逐字生成生成的速度受限于性能可能不同，即便是相同的长度生成时间不一样，从产品逻辑上来看，一个一个字的看明显好于等待几秒看一段话再

ZennoZ

254 天前

可以自己写一个交互界面，把 stream=false ，也就是把流式输出关掉。现在的 AI 可以干这种程度的编程工作。当然了如果想让界面好看，你可以拆解一个开源的大模型聊天软件，自己改。然后出什么 bug 继续找 AIdebug

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1109860

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.