deepseek-v4-flash 好像没大家说的这么智能啊?

2 天前
 lynn1su
感觉就比 minimaxm2.7 强点,感觉不如 qwen3.6plus ,glm5 和 kimi2.5 啊,我已经用了 2 亿多 token 了,实在没体验出智能
尤其是指令遵循,我在 hermes 中使用时常出现不遵守规则回复。
还有长记忆捞回测试,我上传了 900k 的武林外传的剧本 txt ,回答的很差欸
v4-pro 这个比较很可疑,但是 v4-flash 有时候我感觉和 minimax2.7 坐一桌的
2331 次点击
所在节点    DeepSeek
16 条回复
lynn1su
2 天前
flash 思考强度开的 max
ericguo
2 天前
3 USD <= 2 RMB ,新的 token 不等式?
dingawm
2 天前
flash 参数量和 qwen3.6plus ,glm5 和 kimi2.5 不是一个量级的
lynn1su
2 天前
@dingawm 有的时候感觉和 minimax m2.7 一个感觉,有点破防。。
longxinglink
2 天前
nvidia 的 API 测试了一下,很多国模无法完成通过 cloudflare API 部署 monolith 博客项目 和 独角兽 next ( Render+free 数据库),性能不如 jules ( Gemini 3.1pro )(在其他论坛说这话会不会被喷)
defaw
2 天前
至少他真会去自主 gradle 执行任务去拉源码解压然后分析,我没见过 glm5 以下的模型这么干过,kimi 不行,minimax 不行。
ps:最近 3 天 opencode 的 flash 明显变蠢了,不知道咋回事。
forisra
2 天前
@ericguo 就是这个道理。之前 ilya 还说 ai 要进入研究时代现在看是完全错误,实际上还得是力大飞砖继续堆参数量继续堆显存。
lynn1su
2 天前
@defaw 量化了估计
ybybwdwd
2 天前
280 多 b 的参数,本来就是对标 minimax2.7 这个级别的啊
lynn1su
2 天前
@ybybwdwd 但是晚发这么久,应该有智力上的优势呀
ClericPy
2 天前
TPS 100+ 的国产模型里,我一直在各种套餐里反复横跳,不知道哪个聪明

minimax2.7-highspeed 、glm5-turbo 、deepseekv4-flash 、mimo2.5

claude code 里约束好各种 md 以后,基本看不出来有啥搞不定的事情,估计是已经被我限定了改动方向了,不像一些人让它自由发挥。TDD + SDD 以后确实很少出问题了
dingawm
2 天前
@lynn1su #10 每个人使用的场景都不同,每个模型擅长的方向也不同,参考一些比较可靠的跑分结果和你的需求选择吧。我一般不会用各家的小模型的,但是我看 X 上有老外说 v4 flash 效果很好,性价比比 v4 pro 高很多,忘记他说的什么场景了,不过我自己的小任务还是不太考虑用小模型,毕竟用量本来就没有那么大。
yangyaofei
2 天前
v4 flash 就是不是很聪明, 有一个业务原来跑在 Deepseek v3 非推理模式下面, 现在切换到 flash 非推理模型下面, 直接输出没有跟随指令. 由于原来的提示词比较复杂有多个逻辑在里面, 不得已修改了提示词, 但是效果还是不好, 只能切到 kimi 上面了, 当然慢的飞起.

flash 用来做简单的单一任务还是挺好的, 语音转文字的后处理做得又快又好, 不要要求太多, 这么便宜这么快还想怎样, 和 glm5.1 比就太过分了, 现在体感使用在 coding 场景下 v4 pro 都不如 glm5.1
ghos
1 天前
@ClericPy 想问问 TDD+SDD 用什么 skill 好呢?
plmsuper8
1 天前
和 Minimax 一桌也不奇怪。某种意义上的模型泛用智能没有诀窍,还是要靠参数量、尤其是激活量 + 高质量训练;更晚推出的模型的以小博大,更多还是因为对齐了更新的流行趋势,比如 Resaoning 、Tool 、Agent 等等。但如果你的应用方向不是主流的,甚至会觉得新的倒退(比如,很多人觉得 opus 4.5 角色扮演比 4.7 更好; gpt4 比 gpt5 更人性化;写文方面还有坚持用 llama3 70b 系列的)
germain
1 天前
近 48 小时内降智了,我之前问的一些问题都能顺利过的现在同样的问题都是错的答案。( pro ,我不用 flash )

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1210082

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX