这些大模型也真的是狗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

我目前在做图像识别和分类的相关开发工作,(识别性别年龄) 刚开始用的 clip 模型, 但是速度跟不上, 已经上了 5090 * 6, 加 l20 * 4, 速度都不太理想, 吞吐量不行, 后面问了同行, 他们用的是 MobileNetV2 训练调优的, 速度还不错, 我就也想试试了,

训练一圈下来识别率很低(当然这里可能是我写的代码都不行

训练 mobilenet 前问 claude 和 grok, 说 clip 的确笨重, 用 mobilenet 怎么好怎么好

今天效果不满意, 我问 gemini3, 你猜怎么着, 他建议我用 clip 模型, 多模态啊咋地, 你说他们狗不狗

优点：
懂语义：它看过几十亿张图，知道"骑马的人"长啥样，不会被背景搞晕。
无需训练：不用洗数据，不用跑 epoch ，直接推理。
泛化强：全身照、半身照、卡通图都能认。

5 条回复 • 2025-11-22 23:12:48 +08:00

paopjian

2 小时 54 分钟前

如果只是识别性别年龄这种任务, 直接上 CLIP 有点大炮打蚊子了, 不应该是先用开源模型试验效果么, 比如 insightface 这种, 再考虑是自己训练/整理集,
mobilenet 单纯速度快, 效果低太多了, backbone 有很多选择 mobilenet darknet resnet, 不用指着一个死磕, 你问 AI 什么他们肯定怎么回答你
不懂你这狗不狗什么意思?

v2gba

1 小时 45 分钟前

可能和你的 prompt 也有关系
大部分 AI 有附和用户的毛病（除非用户错的厉害）

lloovve

1 小时 32 分钟前 via iPhone

能不能有点自己的主见？这东西完全要靠自己去验证，具体性能和模型，具体训练的样本，还有优化都有关，不要妄想用简单的东西解决这么复杂的问题，现在人都没办法完全看图个图估计准确年龄。

tool2dx

1 小时 21 分钟前

你说人狗我还能理解, AI 吐出来的就只是训练数据, 根据你的提问给最佳回答，有啥狗不狗的。

人会骗你，AI 又不会。

zizon

1 小时 7 分钟前

时代变了,hallucinate 都有人拨乱反正了.