ChatGPT 的/v1/chat/completions 接口流式响应设计有点不科学

当启用 stream=true 的时候，以流响应，返回的数据大体如下：

data: {"id":"chatcmpl-6r3B875xFqmzK9lMm8sousVO3iBN4","object":"chat.completion.chunk","created":1678101622,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"role":"assistant"},"index":0,"finish_reason":nul
l}]}

data: {"id":"chatcmpl-6r3B875xFqmzK9lMm8sousVO3iBN4","object":"chat.completion.chunk","created":1678101622,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"\n\n"},"index":0,"finish_reason":null}
]}

data: {"id":"chatcmpl-6r3B875xFqmzK9lMm8sousVO3iBN4","object":"chat.completion.chunk","created":1678101622,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"作"},"index":0,"finish_reason":null}]}

data: {"id":"chatcmpl-6r3B875xFqmzK9lMm8sousVO3iBN4","object":"chat.completion.chunk","created":1678101622,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"为"},"index":0,"finish_reason":null}]}

data: {"id":"chatcmpl-6r3B875xFqmzK9lMm8sousVO3iBN4","object":"chat.completion.chunk","created":1678101622,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"一个"},"index":0,"finish_reason":null}}

...

data: [DONE]

每一个 event data 的 json 串，得到的 content 内容仅仅是一个字，看完真觉得浪费流量啊，是否我的调用方式不对呢？有其他的参数或调用方式来避免这种浪费吗？

byzod

2023-03-07 23:50:32 +08:00

虽然但是，ai 答复的后端资源需求是非常高的，传输带宽只是流程上一个优先级非常低的环节，大概率不是性能热点

正经程序员也不会在业务逻辑耗时 2000ms 的时候扭头去想办法把 parser 的时间从 2.5ms 优化到 1ms 吧，虽然这是 60%的性能提升——对于这个环节来说

brader

2023-03-08 15:46:36 +08:00

@vinciarts 在目前 ChatGPT 的 API 采用直传 token 的授权形式的情况下，不管你采用什么方式，要么你有服务端代理来授权，要么你直接客户端访问，你隐藏的再怎么好，还是有暴露 token 的风险。
上面只是其中之一原因，最近开始，最主要的原因还是需要代理的问题，被 GFW 墙了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/921810