请教关于大模型 token 消耗的疑问，感觉随便一个任务就能消耗百万 token

最近在用一些国产大模型 API ，感觉效果比 trae 官方的效果好很多，又快又好。所以是不是 trae 一些官方接入的模型，上下文被严重压缩了，以至于用起来降智特别严重。

另一个问题是，它的思考过程，是不是有可能会把整个项目文档作为输入去思考，所以一个问题直接消耗百万 token ？

PositionZero

2025 年 8 月 15 日

1. 官方提供的 API 都是满血版本，AI IDE 提供的一般是残血版（降低上下文、降低思考强度等）。在 AI IDE 中用满血版一般需要额外付费（比如 cursor 的 Max Mode ）。
2. 一般不可能输入整个项目文档作为上下文。token 消耗快是因为每个问题都有很长的 system prompt 。

bbbblue

2025 年 8 月 15 日

你可以用下 cline 然后点开他的上下文可以看到里面塞了多少东西
你就光问一个问题他就会把整个目录树全塞进去（不过 cline 他们的教条是不做 RAG 所以文件读取也是整个的）

那种订阅制的 AI 插件/IDE 不会塞这么多东西的

vclin

2025 年 8 月 15 日

2k 不到的单次上下文使用，给我缓存了两百多 k…哎

kneo

2025 年 8 月 15 日

你说的莫不是 qwen3 ？

vincentqi

2025 年 8 月 15 日

@kneo Yes

kneo

2025 年 8 月 15 日

@vincentqi 虽然我没用过，但是 qwen3 在 agent 方面是出了名的费，让人怀疑是有 bug 。

ferock

2025 年 8 月 15 日

整个文档目录索引做的比较好的是 cursor

Grin1024

2025 年 8 月 15 日

因为这些 agent 的 system prompt 写的都很长，所以就会出现问一下 hello 都要好几万 token 。比较好的使用方法就是完成一个小功能后就新开一个对话，不然上下文爆炸。

cinlen

2025 年 8 月 15 日

昨晚试用了一下 qwen cli + qwen3-coder, 写了一个简单 task 让它自己跑就没有管它了，早上想起来看了一下，赠送的 100 万 token 额度已经用完了而且工作也没做完。

yjd

2025 年 8 月 16 日

就我最近翻译一个文档，然后还需要写一个 py 代码来后期处理。qwen3 很一般。提示词明确不能删除空白行，他就傻乎乎删。而其他国内国外都不会删。

bthulu

2025 年 8 月 16 日

让它用文言文来思考是不是可以瞬间减少很多消耗

sworld233

2025 年 8 月 17 日

我个人用过来 roocode(cline 、kilo code)这类工具自己接入效果是不错的（相比 Cursor 和 Windsurf ），但是花钱太恐怖了，之前 kilo 送的免费$100 额度一周就用完了（ code 模式用 claude sonnet4,其他 gemini 2.5pro ），每天消耗在 10M 个 token 上下

bbbblue

2025 年 8 月 17 日

@sworld233 试试 glm4.5 虽然现在还有白嫖的 gemini 2.5 pro 但是为了防止后面他没了。。我现在部分开始用 roocode+glm4.5/通义灵码....

或者要省一点其实 plan/architect mode 用 2.5 pro/sonnet 但是 act/code 模式用 gemini 2.5 flash 这种会稍微好一点
我白嫖前就用的 gemini 2.0 flash 已经能完成不少工作了

还是得慢慢尝试了

jackhm18

1 月 14 日

@vclin 这个找到解决方法了吗

vclin

1 月 15 日

@jackhm18 更换其他工具和大模型

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1152698

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.