chatgpt/bingchat 这些大语言模型在进行文字回应的时候都是几个字几个字的往外蹦，这背后的原因是啥？

PrinceofInj

2023-10-13 17:41:33 +08:00

@em70 人脑可不是这样。我在打算回复这段话的瞬间已经想好整句话怎么说了，只不过受限于我的打字速度才一个字一个字打出来的。人脑某种意义上是类似于量子计算的。

eae29qvc

2023-10-13 17:56:32 +08:00

@swulling 大语言模型是一个字一个字输出的，但是 azure 那边确实是等全部内容输出后再返回给用户的，因为还要做 content filter ，content filter 是用别的模型做的

eae29qvc

2023-10-13 18:03:32 +08:00

@swulling 人家专门上门过来卖服务的，掏多少钱给多快响应速度，甚至 content filter 都可以定制，而且 azure 的 gpt 也不会跑在单卡上吧

iOCZ

2023-10-13 18:57:08 +08:00

也许你不太相信，但是它的确是一个 token ，一个 token 生成的。。。当然你也可以攒起来再发给前端

swulling

2023-10-13 19:50:03 +08:00

@eae29qvc

> 掏多少钱给多快响应速度

我说了，这个是不可能的，有瓶颈。
另外单卡推理比多卡、多机推理快，这是因为传输瓶颈。

swulling

2023-10-13 19:57:37 +08:00

@eae29qvc #42

> azure 那边确实是等全部内容输出后再返回给用户的

并不是全部内容，如果开了流式，是分句。国内的大模型比如文心一言也是分句，按句进行内容过滤。

jptx

2023-10-13 20:32:30 +08:00

@airyland #3 感谢推荐网站，被这个前端惊艳到了

dnfQzjPBXtWmML

2023-10-13 20:50:49 +08:00

@geelaw 生成 token 比推送到客户端并显示开销高得多，所以所有的设计都主要被 LLM 本身的特性所限制。你重现对话速度快可能和当时的使用人数有关，北京时间深夜用比白天速度慢。另外，如果工程师们如果有更重要的事情做，那么不浪费时间在优化细节上面没什么问题。

em70

2023-10-13 23:34:23 +08:00

@PrinceofInj #41 我不信，你最多想好了一个观点，具体怎么表达一定是边说边想的。人脑的内存不可能放下一整句话，6 位验证码已经极限了，要是 8 位就会需要看两次才能输对

PrinceofInj

2023-10-13 23:44:13 +08:00

@em70 所以我说类似于量子退火的过程。在输出的时候才具象化，但是在输出前，实际上已经定好了。最明显的例子，我们在回想一件事的时候，是瞬间想到这件事儿的整体的，而不是说类似计算机 select from where 等到命中目标后再从大脑记忆中逐渐读取。

mmdsun

2023-10-14 11:32:06 +08:00

@airyland
@eae29qvc
@swulling
我的 Azure 是一个个字输出的，不是整句话和 OpenAi 一样流畅，可能后面有改动。

mmdsun

2023-10-14 11:34:29 +08:00

locoz

2023-10-14 23:20:27 +08:00

@PrinceofInj #43 其实是你对比的对象错了，人脑思考出一整句话的过程应该等同于语言模型一个一个词往外输出的过程，而不是你打字输出的过程，后者实际等同于得到了语言模型的完整输出结果后，再表演性质地来一遍打字效果。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.