AI 算力大模型优逆讨论

7 小时 11 分钟前
 spawnme

欢迎各路佬友发表一下各大模型的,各种应用场景用哪种模型比较合适

491 次点击
所在节点    程序员
3 条回复
lujiaosama
5 小时 57 分钟前
美国豆包适合提供情绪价值,当大号搜索引擎。
GPT/CLAUDE TOP2 能干活的,一个适合执行,一个更适合出方案。
国产 LLM 适合给 GPT/CLAUDE 当拉拉队。量大管饱的适合跑龙虾。
SoraStar
5 小时 20 分钟前
其实用什么模型完全得看你的 Coding 方式。

可以看看我这篇,https://www.v2ex.com/t/1221657 ,里面提到了几种 Coding 方式:

"Vibe 还是有很多程度上的区分的:

首先是原教旨 Vibe 。这类人坚定不移地走 Andrej Karpathy 的路线,坚持全程使用 AI 编程不动摇。这种人已经相当于机械飞升了,写出来的代码可以类比成 40K 世界里的人类之于现实人类——简单来说就已经不是人了。通常来说,这类人的能力上限极高,下限也极低。

上限极高的前提是成为掌管提示词工程的神、同时用 Harness Prompt 把 AI 调成星怒;下限就是那种说不清自己需求的人,典型案例就是告诉对方“我要五彩斑斓的黑”的甲方,产出来的全是类似于克苏鲁一样的不可名状的生物。

其次是把 AI 当成赛博义体来用的重度使用者,这群人中的强者不会完全用 AI 来写,而是自己先写好设计文档和架构文档。更有甚者还会实现好关键部分,其它全部用空壳函数占个位,然后再在旁边写好注释,AI 只用负责填空。这使得他们的活可以只用低参数 LLM 解决,这是其它几种都做不到的。而弱一点的虽然写得比 AI 还差,但至少 AI 会帮他们兜个底,他们的基本逻辑还是能跑通的。

最后是 AI 的轻度使用者,这种人偶尔用 AI 写个 MVP 最小化验证一下自己的思路,或者用 AI 改一下他们改不来的错。他们的大多数代码都是自己写的,所以有没有 AI 对他们影响不大。"

---

参考 B 站 UP 主 “图灵坐标” 的分类方式,我们把模型能力分为以下六种:编码能力、工具调用、指令遵循、长文本推理、学术认知边界(也就是世界知识)、事实可靠性。然后我在模型能力之外加上两种参考坐标:多模态能力、性价比、输出速度。

对于原教旨 Vibe 来说,他们对模型的某些能力要求极高,因为模型是主要的输出者,这要求模型有较强的编码能力、工具调用能力。而现阶段市面上 Claude 4.6 系列模型( Opus 、Sonnet )、GPT 5.5 都属于此列。

对于把 AI 当义体来用的人来说,AI 纯纯只是个填空工具,写出代码主要还是靠人。这要求模型有较强的编码能力,其次是指令遵循。而现阶段符合该条件的模型是 DeepSeek V4 Pro/Flash 、Qwen 3.7 Max 、GLM 5.1+ 以及前面两个提到的模型系列。这里推荐国模。因为你单纯拿来填空,给 A\ 和 CloseAI 交那么多钱多少有点不太合适。

然后还有一类人,是把 AI 用来重构的,这类人需要的是超强的长文本推理和编码能力。这里国模只有 GLM 5.2 和 Qwen 3.7 Max 比较适合这类工作。要想自己的项目不被修垮,只能硬着头皮选 Claude 和 GPT 了。

拿 AI 学知识的人需要的是工具调用能力(毕竟要 Web Search )、世界知识、事实可靠性。Gemini 系列模型和 DeepSeek V4 Pro 最适合他们。记住,千万别去选 Gemini 3.5 Flash ,不然你真会变成哈基米,对着模型哈气的。

甚至有人拿 AI 辅助思考,我不会这么做,但我尊重理解祝福。这类人需要的是长文本推理、世界知识、事实可靠性强的模型。梁叔叔的 DeepSeek V4 Pro 和 Google 的 Gemini 3.1 Pro 是最适合的。

至于那些只是单纯拿 AI 当扳手,没有 AI 也能手拧螺母的狠人,模型能力强不强跟他们没啥关系。他们甚至拿个 MiniMax M2.5 (!?区区?!)都能做可行性验证。

然后是多模态能力,这个对于 Coding 来说只能作为加分项,不能作为决定项。但是对于日常使用还是挺有帮助的。

最后,不得不提一下为什么不选 MiniMax M3 和 MiMo 2.5 Pro 。因为输出速度实在太特喵的慢了!!!!人家拿着 DeepSeek V4 Flash 都 Debug 完几轮了你还在慢慢进行精雕细琢(点名 M3 ),有的甚至慢工出烂活( MiMo ),真的让人绷不住。

不过,这里有个输出速度的极端:MiMo 2.5 Pro UltraSpeed 。没错,最快最慢都是小米! 1000+ Token 每秒,大力出奇迹,写得烂没关系,你写一遍的时间我能写完一遍再 Debug 好几遍😋但是这玩意儿现在不在评价体系里面,因为几乎申请不到。
pigdragon
1 小时 27 分钟前
@SoraStar 讲的好,学习了!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1221797

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX