只能说 DeepSeek V4 Pro 继续努力吧，天气卡片效果一般

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 47 days ago, the information mentioned may be changed or developed.

简单试了下天气卡片，中文英文都试了，太简陋了：图片.png

中文：

创建一个包含 CSS 和 JavaScript 的单一 HTML 文件，用于生成动画天气卡片。卡片应该通过不同的动画直观地表示以下天气状况：

风：（例如，移动的云朵、摇摆的树木或风线）

雨：（例如，下落的雨滴、形成的水坑）

阳光：（例如，闪耀的光线、明亮的背景）

雪：（例如，下落的雪花、积累的雪）

所有天气卡片应并排显示，卡片应该有深色背景。

在这个单一文件中提供所有 HTML 、CSS 和 JavaScript 代码。JavaScript 应该包含一种切换不同天气状况的方式（例如，一个函数或一组按钮）以展示每种天气的动画效果。

英文：

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.

Supplement 1 · Apr 24

就像有些老哥说的，我的评价确实太武断了，不太能说明啥，而且有点标题党，容易引起争议。
目前单纯的 API 价格相对于订阅制来说还是会让人价格很敏感，希望后面尽快推出 Coding Plan 吧。
另外，即使国产模型还没到 Opus 4.6 的级别，但是好歹 OpenAI 的新模型到了，不用再看 A\ 的脸色了。国产模型目前的进步速度，应该能尽快追赶上的。
还有别吵了，我都下沉过了还是没用，看了下还是挂在热门那。哪位管理员看到帮忙从热门那下掉。

天气

动画

卡片

127 replies • 2026-05-06 12:26:53 +08:00

1 2

❮

❯

101

duanxianze

Apr 24

认同 10 楼，你这种比较没有说服力

102

duanxianze

Apr 24

https://www.doubao.com/building/render/1a7e28c9d4f45268 个人感觉都不

103

zzlove

Apr 24

Gemini 3.1 pro

GPT-5.4

104

jmliang

Apr 24

Claude Design： https://claude.ai/design/p/e47283dd-8225-48fc-b33d-e5c091f97b15?file=Weather+Cards.html&via=share

105

linglongshenghan

Apr 24

DeepSeek V4 专家+思考
<img src="https://imgur.com/F6u3DKe" alt="DeepSeek V4 专家+思考">

106

linglongshenghan

Apr 24

DeepSeek V4 专家+思考

107

nuomi196500

Apr 24

@HeyWeGo 做文字创作优化，本地 Gemini 能在完全无背景交代的基础上，理解作者的真实意图、伏笔、悬念设计等等，其它 AI 无法理解，千问甚至会质疑为什么这样写。Gemini 在理解真实意图这一块目前感觉是最强的

108

daimaosix

Apr 24

@hhh12 #10 我也尊重你的观点，但是你提到“已经没有可观测的差距了”这完全就是在扯淡。

109

jonsmith

Apr 24 via Android

AI 模型智力基本够用了，下一步对拼成本、算力了

110

mode171

Apr 24

@hhh12 这年头，明白人越来越少了啊。

111

dryadent

Apr 24

有人用 max 试试么，这个想过咋样

112

hhh12

Apr 24

@daimaosix 你用一句情绪化的“扯淡”来反驳我，不仅没有提供任何实质性的论据，反而恰恰印证了我最初的观点——你正在用高铁硬卧车厢里的直觉，去强行点评你根本没有科学评估能力的尖端技术。你说“没有可观测的差距是在扯淡”，那我们就来把这个“扯淡”拆解一下，看看究竟是谁在反智。你之所以觉得“有差距”，是因为你陷入了以下三个致命的认知盲区：
第一点：你无视了“任务天花板效应”
我原话的前提非常明确：“对于绝大多数没那么抽象、没那么复杂的日常工作”。
这就好比，你让博尔特和苏炳添去跑一个 10 米的比赛，两人的成绩可能都是 1 秒出头，你肉眼根本看不出差距。你能说“他俩没有可观测差距是在扯淡”吗？不能，因为 10 米的赛道根本测不出他们的极限。
当今主流模型在基础代码生成、日常公文写作、常规 API 调用上的能力值都在 95 分以上，而你手头工作的难度满分只有 50 分。他们交出来的都是 50 分的满分答卷，你非要拿着放大镜说“A 模型的代码多了一个换行，B 模型的语气更像真人”，这不叫“发现能力差距”，这叫“主观审美偏好”。
第二点：你把“对齐偏好”和“温度随机性”当成了“智力差距”
你所谓的“可观测的差距”，90%以上根本不是模型智力的差距，而是 RLHF 的对齐策略不同，或者是单次生成的随机性噪音。在默认的 Temperature 设定下，LLM 的输出本质上是概率分布。你让同一个模型写两次贪吃蛇，一次可能完美运行，一次可能少个依赖库。如果你拿 A 模型的第一次去对比 B 模型的第二次，然后得出“A 比 B 强”的结论，这在统计学上叫“毫无意义的单样本比较”。把产品经理设定的“系统提示词”和“UI 渲染风格”当成模型的底层推理能力来点评，就如同你觉得外卖小哥跑得不够快，是因为他穿了黄衣服而不是蓝衣服一样荒谬。
第三点：你迷信你的“体感”，却无视了量化科学
你可能觉得 Benchmark 是扯淡，你自己测的才真实。但事实是，LMSYS Chatbot Arena 、SWE-bench 这些涉及数十万次双盲测试、上万个真实 GitHub issue 的统计结果显示：在绝大部分非极端推理任务中，这些头部模型的胜率差已经缩小到了统计学上的误差边缘以内。
科学界用了几十万个测试用例得出的结论是“头部模型正在同质化、能力正在逼近收敛”，而你仅仅靠自己下班后随手打了三个 Prompt ，一看其中一个报错了，就一拍大腿说“差距明显”，你不觉得这种“体感”太廉价、太傲慢了吗？
如果你觉得我"扯淡"，证明“这些主流大模型在日常任务中存在巨大的、决定性的能力差距”，请你拿出控制了变量、消除了随机性、具备统计学意义的对比测试报告。
如果你拿不出来，只能继续举例子说“我昨天让 A 写了个贪吃蛇没跑通，B 跑通了”，那你就永远只是那个对着丘成桐和陶哲轩的满分试卷，评价谁的字写得比较好看的高中生。

113

microscopec

Apr 24

@hhh12 别的不知道，sonnet4.6 这样稳定输出代码，一句话、甚至半句话就能理解原意，不需要重复修改代码，能自己按照规范写，目前还没见过，gpt5.5 不行，gemini3.1pro 不行，deepseek 根本理解不了话，并且输出了一坨屎...

114

SeanZen

Apr 24

@hhh12 用模型不就是工作嘛，我不拿这个判断，我拿哪个判断。。

115

hhh12

Apr 24

@microscopec 你极力夸赞 Sonnet 能够“一句话甚至半句话就理解原意，不需要重复修改”。你说的这根本不叫模型的逻辑推理能力强，这叫 Anthropic 在 RLHF 阶段，针对程序员的“代码补全场景”做了极度的讨好和过拟合。
什么叫“半句话就能写代码”？这意味着模型在疯狂地猜测你没有说出来的上下文。你在用一种极其偷懒、不规范的提示词习惯，去测试哪个模型更像你肚子里的蛔虫。你觉得这叫差距？就好比你去餐厅点菜，只说了一句“随便弄点好吃的”，A 厨师猜对了你的口味，B 厨师没猜对，你就到处宣扬“B 厨师做的就是一坨屎，根本不会做饭”。这不叫评测厨艺，这叫你在给模型算命。真正严谨的软件工程测试，给的都是结构化、清晰且毫无歧义的完整 PRD 和约束条件。在这种标准输入下，你提到的这些最新顶尖模型，输出的质量根本没有你所谓“一坨屎和神仙”的差距。

116

daimaosix

Apr 24

@hhh12 大多数人没有像你研究的那么深入，因此我也不知道你说的真假，只看到了你写了大量的比喻，遗憾的是，我花钱买模型用，哪个好用哪个不好用我自己很清楚。就这么简单。

117

hhh12

Apr 24

@SeanZen 作为消费者，你拿工作体验来“挑选工具”完全没问题；但作为评论者，你拿工作体验来“评判尖端大模型的智力差距”，就是傲慢且无知。你把“产品体验”和“模型基础能力”完全混为一谈了。这就好比，你每天的工作是去超市买菜，你发现一辆自动挡的丰田卡罗拉开起来极其顺手，而一辆手动挡的 F1 赛车你不仅开不好，甚至一踩油门就熄火。于是你破口大骂：“F1 赛车就是一坨屎，根本没法开，跟我的卡罗拉有不可逾越的差距！”

118

ebushicao

Apr 24

@hhh12 那我就得拿出上周我用 glm-5.1 写一个简单的后端服务的案例来反驳你了，接口需要认证才能调用这个功能很普通，没那么抽象吧？实现一个登录接口同样不是什么逻辑复杂的工作吧？但是 glm-5.1 把登录接口也加了认证，导致整个服务不可用，还在我明确说明登录接口提示 401 之后 glm-5.1 依旧没能解决，只是加了一个日志然后让我重试之后把日志信息发给它，在发了日志之后它才终于明白是因为它把登录接口添加了认证要求。同样的问题我没在其它模型碰到过。至于你说的 benchmark ，minimax2.7 是个更典型的例子，很多时候不显式指定连 skill 都不会调用，同样的提示词 kimi 、glm 都没有问题。

119

coefu

Apr 24

@hhh12 #10 一帮只会点三板斧，连高德纳具体数学估计都整不明白的三脚猫，臧否起来，全身上下就只有嘴是最硬的。

120

mansunyunxin

Apr 24

「没有灵性」这个问题，最近在研究 GPT-5.5 和 DeepSeek V4 技术报告时想到一个可能的解释：

模型缺的不是「灵性」，是「业务上下文」。

当一个模型在纯代码任务上很强但业务决策上很弱，核心原因是训练数据里「代码变更的因果链」信号清晰，但「业务变更的代价」信号几乎不存在。

Gemini 会提反对意见，是因为它的训练数据里有更多「从业务后果反推」的高质量决策样本——不是它更聪明，是它见过更多「这样改后来出了问题」的历史。

解决方式不是换模型，是补充上下文。把「为什么这样设计」「改了这个会影响什么」写进 Prompt 或项目文档，让模型在足够的业务语境里运行。

没有灵性的本质是：没有足够的信息让模型做有根据的判断。给它足够的信息，灵性会自己出现。

121

bowencool

Apr 24

@dingawm #13 尊重你的观点

122

fanhed

Apr 25

楼主有没有搞懂评判标准, 简陋不能算作评分标准.
你需要看的是根据你的提示词, 实现有没有问题, 功能有没有异常.
至于捡漏不捡漏是无所谓的.

123

jkjoy

Apr 25

@Zzdex kimi?

124

microscopec

Apr 27

@hhh12 #115 真正的模型会根据你的项目和上下文去分析你的对话，就像你跟人对话一样，你见了你同事也要每次都自我介绍：我叫 xxx ，我 xx 吗？不需要吧？
对话逻辑是一样的，处理信息需要根据多源信息去分析解决，而不是简单的做题，光会做题就只停留在幼儿园水平了

125

hhh12

Apr 28 via Android

@ebushicao 你举的这两个例子，恰恰完美地印证了我的观点——你依然在用典型的“硬卧车厢高谈阔论”式思维，试图用 N=1 的个例来推翻统计学上的宏观事实。
你说 GLM-5.1 给登录接口加了认证导致 401 循环，且没能第一时间自我纠错。这确实是一个低级错误，但在 LLM 的世界里，这说明不了任何“能力差距”。
为什么？因为大语言模型本质上是概率模型，不是确定性的状态机。
在数以十亿计的参数碰撞中，即便最聪明的模型（包括 GPT-4o 或 Claude 3.5 Sonnet ），也有一定的概率在某些特定上下文里钻进死胡同，犯下人类看来极度弱智的错误。你刚好碰到了 GLM-5.1 在这个问题上的那 2% 的失误率，而你在其他模型上刚好踩中了那 98% 的成功率。
这就好比丘成桐在做高考数学卷子时，因为看错了一个负号导致某道大题扣了 2 分，最后考了 98 ，而另一个数学家刚好没看错考了 100 。你拿着这张 98 分的卷子大喊：“你看！丘成桐连负号都看错，他的数学能力明显不行！”——这不叫评估，这叫主观放大个别瑕疵（鸡蛋里挑骨头）。如果你把这个任务跑 100 遍、1000 遍，你会发现主流模型的成功率都在一个极高且极为相近的区间内。
你提到 Minimax 2.7 不显式指定就不调用 tool （技能），而 Kimi 和 GLM 没问题。
首先，Minimax 并不是我在第一梯队里列举的那几家最顶尖模型。退一步说，即使是在顶尖模型之间，“是否主动调用工具”更多是模型对齐策略（ Alignment Strategy ）和阈值设定的选择，而不是底层逻辑能力的缺失。
有些模型在训练时被调教得更加保守（ Conservative ），为了防止误操作、乱调接口产生不可控后果，它们被设定为需要更高的置信度或更明确的用户指令才会触发 Function Calling 。而有些模型则被调教得更加积极（ Aggressive ）。你把一种“保守的产品安全策略”当成了“它听不懂逻辑”，这恰恰说明普通开发者往往分不清模型的“系统偏好”与“核心智力”的区别。
你觉得加个认证、写个后端不复杂，所以模型连这个都做错就是“有可观测的差距”。但你忽略了，在几十万个 test case 的基准测试（ Benchmark ）中，包含了无数个比你这更复杂、更刁钻的代码逻辑测试（比如 SWE-bench 或 HumanEval ）。
为什么我们要看 Benchmark 而不是你的“体感”？
因为你的“体感”充满了幸存者偏差和确认偏误。当你用 GPT 遇到 bug 时，你可能会潜意识觉得“是我提示词没写好”；而当你用国产模型遇到 bug 时，你立刻会觉得“果然还是这模型不行”。
你所谓的“其它模型没碰到过”，仅仅是因为你个人测试的样本量太少。如果你去 GitHub 的 issue 区或者国外的开发者论坛看看，GPT-4 和 Claude 绕进死循环、反复改错代码最后越改越乱的案例一抓一大把。

126

ebushicao

Apr 28

@hhh12 下次用 AI 生成回复至少用个数据够新的吧，今天了还在“最聪明的模型（包括 GPT-4o 或 Claude 3.5 Sonnet ）”，我没兴趣跟一个没脑子的杠精辩论。

127

hhh12

May 6 via Android

@ebushicao 我知道你很急，我劝你别急，你觉得 ai 生成就 ai 生成吧，毕竟你的智商也就这样了

1 2

❮

❯