我发现现在新的模型,几乎都没有提供 token 的计算规则

1 天前
 934831065ldc

最近想做一个 token 计算的,看看缓存到具体哪里,然后怎么算都算不对的,已经不知道这个 token 怎么算了,我记得之前 openai 还会公布一下 token 是怎么算的。 你们知道吗? 比如千问,豆包,deeepseek 那些最新的大模型 token 都是怎么算的吗?

1206 次点击
所在节点    问与答
7 条回复
zizon
1 天前
都是 response 里回传回来的统计信息.
有些要手动开才会有对应 payload.
sillydaddy
1 天前
没看懂,是计算一段文本转化成多少?还是多轮对话中,各种类型 token 数量是怎么计算的?
前者有专门的工具,后者的计算算是基本常识,跟厂家无关,问一下大模型就知道了:cached input, not cached input, cache write, output ,都是通用的。
suckinbottle
1 天前
你可以理解为黑盒
msg7086
1 天前
文字到 token 的映射,不同模型应该是不一样的。
至于缓存多少,这个也不一定精确,比如我看 codex gpt 就是一块一块存的,不满一块他不存。
gpt 里一块是 128 token ,所以就是存到最近的 128 的倍数为止。
wat4me
1 天前
什么意思,api 调用的时候会返回啊,还是说你想要本地计算用户输入输出的 token ? DeepSeek 有放出来 V3 的分词器,openai 可以看 https://platform.openai.com/tokenizer
KagurazakaNyaa
1 天前
开源的都可以算,闭源的看厂商有没有放出 tokenizer 来
deepseek 的最新大模型是有 tokenizer 的 https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/tokenizer.json
只要有架构,有 tokenizer ,就能本地计算出一段文本对应的 token ,然后统计一下就是 token 数了
Zhuzhuchenyan
1 天前
HuggingFace 公开权重的模型:AutoTokenizer.from_pretrained(...)
Deepseek: https://api-docs.deepseek.com/quick_start/token_usage#calculate-token-usage-offline
gpt: https://platform.openai.com/tokenizer
豆包我还真没找到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1222430

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX