AI 编程时,使用英文进行输入输出是否更加节省 token

56 天前
 qiubo

下面是 kimi 给出的结论,是否正确

1639 次点击
所在节点    程序员
7 条回复
cmos
56 天前
用 BPE 分词器,英语子词合并充分,中文语义密度高,不存在也不可能存在 40%这么高的差距。相信月之暗面,不如相信我是秦始皇。搞这些,不如前置一个小模型实现精炼、去除赘余,这才是真正的提高效率和利用率。
TimePPT
56 天前
@imes 哈哈哈对的。
这个跟 tokenizer 算法强相关,各家各模型其实是有差的。
另外,OpenAI 家自己有个 token 计算器,如果有兴趣自己试试就知道了。
https://platform.openai.com/tokenizer
TimePPT
56 天前
另外,现在很多模型服务厂商是有 cache 的,走 cache 也会便宜不少——比如 OpenAI 家的说明: https://platform.openai.com/docs/guides/prompt-caching
所以你每次请求,多次 context 重复部分实际上花不了多少钱,直接按裸 token 算钱实际上是算多的
yh7gdiaYW
56 天前
会少但没有这么明显,我自己的应用测算下来把输入转为英文能节省 20%-30%的 token ,模型是 4o 。国产模型的话差距应该会更小甚至反过来
Dlad
55 天前
感觉差异来自“子任务:翻译”。跟信息密度关系倒不大。
xuanwu
55 天前
第一个例子,用二楼的 token 计算器测“我爱人工智能” 是 4 个。
自己先做下实验为好。
encounter2017
55 天前

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1150646

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX