请教关于大模型 token 消耗的疑问,感觉随便一个任务就能消耗百万 token

25 天前
 vincentqi
最近在用一些国产大模型 API ,感觉效果比 trae 官方的效果好很多,又快又好。所以是不是 trae 一些官方接入的模型,上下文被严重压缩了,以至于用起来降智特别严重。

另一个问题是,它的思考过程,是不是有可能会把整个项目文档作为输入去思考,所以一个问题直接消耗百万 token ?
2983 次点击
所在节点    程序员
13 条回复
PositionZero
25 天前
1. 官方提供的 API 都是满血版本,AI IDE 提供的一般是残血版(降低上下文、降低思考强度等)。在 AI IDE 中用满血版一般需要额外付费(比如 cursor 的 Max Mode )。
2. 一般不可能输入整个项目文档作为上下文。token 消耗快是因为每个问题都有很长的 system prompt 。
bbbblue
25 天前
你可以用下 cline 然后点开他的上下文 可以看到里面塞了多少东西
你就光问一个问题 他就会把整个目录树全塞进去(不过 cline 他们的教条是不做 RAG 所以文件读取也是整个的)

那种订阅制的 AI 插件/IDE 不会塞这么多东西的
vclin
25 天前
2k 不到的单次上下文使用,给我缓存了两百多 k…哎
kneo
25 天前
你说的莫不是 qwen3 ?
vincentqi
25 天前
@kneo Yes
kneo
25 天前
@vincentqi 虽然我没用过,但是 qwen3 在 agent 方面是出了名的费,让人怀疑是有 bug 。
ferock
24 天前
整个文档目录索引做的比较好的是 cursor
Grin1024
24 天前
因为这些 agent 的 system prompt 写的都很长,所以就会出现问一下 hello 都要好几万 token 。比较好的使用方法就是完成一个小功能后就新开一个对话,不然上下文爆炸。
cinlen
24 天前
昨晚试用了一下 qwen cli + qwen3-coder, 写了一个简单 task 让它自己跑就没有管它了,早上想起来看了一下,赠送的 100 万 token 额度已经用完了而且工作也没做完。
yjd
24 天前
就我最近翻译一个文档,然后还需要写一个 py 代码来后期处理。qwen3 很一般。提示词明确不能删除空白行,他就傻乎乎删。而其他国内国外都不会删。
bthulu
24 天前
让它用文言文来思考是不是可以瞬间减少很多消耗
sworld233
23 天前
我个人用过来 roocode(cline 、kilo code)这类工具自己接入效果是不错的(相比 Cursor 和 Windsurf ),但是花钱太恐怖了,之前 kilo 送的免费$100 额度一周就用完了( code 模式用 claude sonnet4,其他 gemini 2.5pro ),每天消耗在 10M 个 token 上下
bbbblue
23 天前
@sworld233 试试 glm4.5 虽然现在还有白嫖的 gemini 2.5 pro 但是为了防止后面他没了。。我现在部分开始用 roocode+glm4.5/通义灵码....

或者要省一点其实 plan/architect mode 用 2.5 pro/sonnet 但是 act/code 模式用 gemini 2.5 flash 这种会稍微好一点
我白嫖前就用的 gemini 2.0 flash 已经能完成不少工作了

还是得慢慢尝试了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1152698

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX