Gemma 4 31B 大概什么水平,本地部署是不是又成为现实了

10 小时 9 分钟前
 unt
1262 次点击
所在节点    程序员
13 条回复
philobscur
8 小时 59 分钟前
各项评分也就和 qwen3.5 27b 不相上下的水平,已经在等 qwen3.6 了
tomchen
8 小时 45 分钟前
写码离 kimi 、glm 等开源最好的还差一截吧?( Qwen Coder 似乎也差一截)
unt
8 小时 42 分钟前
@tomchen 一般用它不会用来写代码吧
tomchen
8 小时 32 分钟前
@unt 哦不清楚。。不过我再看一眼 Gemma 4 的介绍 https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ 他其实主打的是执行任务、tool calling ,那和 code 也算是一类东西吧,https://arena.ai/leaderboard/code Arena 测试就把他们作为一类
coefu
8 小时 31 分钟前
非常强悍,g 厂出手,都是弟弟。

31B ,要真正跑起 256k 的 context ,Q8 起码要 64G 显存。

对于一般 web 代码来说,体现不出来它的上限。当然,一般人也用不到它的上限。

现在打榜的 benchmark ,都是对标 博士级别的水平,只有你的 case 是真正的挑战,才知道和别的差距。
coefu
8 小时 30 分钟前
@philobscur qwen3.5 就是阿里开源的最后绝唱了,你还等什么 3.6 咯,事情都搞不明白。
coefu
8 小时 24 分钟前
@unt 当前开源里,普罗大众能用到的最强悍模型了。2* 2080ti 22g ,不到 4k 的成本,跑 31B Q8 ,估计能有个 10 Token/s 的速度,凑合能用。
coefu
8 小时 20 分钟前
@unt 我觉得,和 gemini 来比,gemini 现在搞的这种情绪价值提供,反而让人不客观了。今天,试用了一下午 gemma4 31B,可能是 system prompt 没有设置什么情绪相关,反而更理性客观,没有 gemini 的夸夸味。
wwhc
7 小时 50 分钟前
差一点就能赶上 Qwen3.5 了
philobscur
7 小时 33 分钟前
MuyuQ
2 小时 24 分钟前
@coefu 这个模型真是奇怪。 感觉好的人吹上天。感觉一般的人反应平淡。 但是像你这么激动的我还是第一次见。。。。单纯是描述我看到的哈。
MuyuQ
2 小时 7 分钟前
目前看到的评测,大概是 qwen3.5 左右的水准。
https://www.reddit.com/r/LocalLLaMA/comments/1saoyj7/gemma_4_and_qwen35_on_shared_benchmarks/
可以期待一下即将发布的 qwen3.6
stefwoo
1 小时 2 分钟前
用 3090 试了试 gemma 4 31B 4bit ,model 16g 左右,但在 32k 时已经占满了 24g 内存,我觉得模型有问题,论坛也有人反应显存爆炸。生成速度也很慢,远低于 qwen3.5 27B 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1203450

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX