工具不变,项目不变,换 GLM/MiniMax/qwen 思考过程都是中文,而 deepseek-v4-flash 思考过程都是英文。是不是因为 DeepSeek 蒸馏过程不用中文了?
工具不变,项目不变,换 GLM/MiniMax/qwen 思考过程都是中文,而 deepseek-v4-flash 思考过程都是英文。是不是因为 DeepSeek 蒸馏过程不用中文了?
1
accacc 2h 2m ago 你这不都自己有答案了么 是不是想发一贴期望有更多往这个上面靠拢的答案 切! ε=(´ο`*)))
|
2
xiaofeilongyy555 1h 42m ago
有看过相关解释,1.大模型使用了海量的英文高质量数据,特别是代码、顶级论文都是英文; 2.大模型在思考时,其实并不是在单纯地使用某种人类语言,而是将各种语言转化为一种抽象的“概念向量”,也就是说思考过程是没有语言概念的,只有 token
|
3
kyro00000 56 mins ago
人类的发展就是靠蒸馏前人啊,这是事实啊
|