阿里最新的模型 QWQ-32B,大伙用下来感觉如何啊?

198 天前
 wuxiaolong89
2683 次点击
所在节点    问与答
14 条回复
ShadowPower
198 天前
写代码感觉和 o3 mini 差不多,比不过 r1 ,但也算能用
好处是量化之后一块 3090 就能跑,速度还挺快
niubilewodev
198 天前
感觉思考话太多了。
privil
198 天前
“小红有两个姐姐和四个妹妹,她的四个妹妹中年龄第三小的小青总共有几个姐姐?” 这个问题能直接让 QWQ-32B 懵逼
dongfanga
198 天前
@privil 思考是对的,但回答的答案是错的
lowly
198 天前
@privil 你这个问题,刚试了下
文心一言,给的是三个
通义千问,给的是三个
DeepSeek V3 给的结果是 3
DeepSeek R1 直接陷在思考中,不断自我怀疑是 3 还是 5
GPT 没开思考是 5 个,开了思考 4 个
privil
198 天前
@dongfanga #4
@lowly #5
Claude 3.7 Sonnet 开了思考直接秒出结果 6 秒完美解决,思维路径和人一样。
privil
198 天前


@dongfanga #4
@lowly #5
lowly
198 天前
@privil 各 AI 答案不统一,主要是这个问题在于小红四个妹妹中年龄第三小的小青总共有几个姐姐,这是很容易造成死循环,为什么呢,文字描述中的第三小,这语文角度来说,是很容易被定义歧义的句子
luoyide2010
198 天前
幻觉比较严重,知识库也不大的样子,让他分析一部 16 年热门的音乐剧结局,内容基本对不上
youthfire
198 天前
基于 3 楼的问题
Claude 3.7 ,不开思考,正确 - 秒出
Grok3, 无论是否思考,都错误
Deepseek r1, 不开思考,正确
Qwen2.5 14b ,错误
Qwq 32b, 连续 2 次崩溃
bzw875
198 天前
谷歌的 Gemini 的 token 输出快如闪电
privil
198 天前
@lowly #8 有道理,确实,这居然主要是语文问题!震惊
dongfanga
198 天前
@privil 的确是语文问题,看大模型怎么识别,是把小青放在倒数第二还是倒数第三
privil
197 天前
@dongfanga #13 如果大模型能同时给出两个答案,就真的成了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1116583

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX