V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
dingawm
V2EX  ›  程序员

只能说 DeepSeek V4 Pro 继续努力吧,天气卡片效果一般

  •  
  •   dingawm · 11 小时 30 分钟前 · 9920 次点击

    简单试了下天气卡片,中文英文都试了,太简陋了: 图片.png

    中文:

    创建一个包含 CSS 和 JavaScript 的单一 HTML 文件,用于生成动画天气卡片。卡片应该通过不同的动画直观地表示以下天气状况:
    
    风:(例如,移动的云朵、摇摆的树木或风线)
    
    雨:(例如,下落的雨滴、形成的水坑)
    
    阳光:(例如,闪耀的光线、明亮的背景)
    
    雪:(例如,下落的雪花、积累的雪)
    
    所有天气卡片应并排显示,卡片应该有深色背景。
    
    在这个单一文件中提供所有 HTML 、CSS 和 JavaScript 代码。JavaScript 应该包含一种切换不同天气状况的方式(例如,一个函数或一组按钮)以展示每种天气的动画效果。
    

    英文:

    Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.
    
    第 1 条附言  ·  4 小时 47 分钟前
    就像有些老哥说的,我的评价确实太武断了,不太能说明啥,而且有点标题党,容易引起争议。
    目前单纯的 API 价格相对于订阅制来说还是会让人价格很敏感,希望后面尽快推出 Coding Plan 吧。
    另外,即使国产模型还没到 Opus 4.6 的级别,但是好歹 OpenAI 的新模型到了,不用再看 A\ 的脸色了。国产模型目前的进步速度,应该能尽快追赶上的。
    还有别吵了,我都下沉过了还是没用,看了下还是挂在热门那。哪位管理员看到帮忙从热门那下掉。
    120 条回复
    1  2  
    duanxianze
        101
    duanxianze  
       6 小时 52 分钟前
    认同 10 楼,你这种比较没有说服力
    duanxianze
        102
    duanxianze  
       6 小时 50 分钟前
    zzlove
        103
    zzlove  
       6 小时 40 分钟前
    Gemini 3.1 pro


    GPT-5.4
    linglongshenghan
        105
    linglongshenghan  
       6 小时 32 分钟前
    DeepSeek V4 专家+思考
    <img src="https://imgur.com/F6u3DKe" alt="DeepSeek V4 专家+思考">
    linglongshenghan
        106
    linglongshenghan  
       6 小时 31 分钟前
    DeepSeek V4 专家+思考
    nuomi196500
        107
    nuomi196500  
       6 小时 14 分钟前
    @HeyWeGo 做文字创作优化,本地 Gemini 能在完全无背景交代的基础上,理解作者的真实意图、伏笔、悬念设计等等,其它 AI 无法理解,千问甚至会质疑为什么这样写。Gemini 在理解真实意图这一块目前感觉是最强的
    daimaosix
        108
    daimaosix  
       6 小时 12 分钟前
    @hhh12 #10 我也尊重你的观点,但是你提到“已经没有可观测的差距了”这完全就是在扯淡。
    jonsmith
        109
    jonsmith  
       5 小时 46 分钟前 via Android
    AI 模型智力基本够用了,下一步对拼成本、算力了
    mode171
        110
    mode171  
       5 小时 43 分钟前
    @hhh12 这年头,明白人越来越少了啊。
    dryadent
        111
    dryadent  
       5 小时 42 分钟前
    有人用 max 试试么,这个想过咋样
    hhh12
        112
    hhh12  
       5 小时 41 分钟前   ❤️ 1
    @daimaosix 你用一句情绪化的“扯淡”来反驳我,不仅没有提供任何实质性的论据,反而恰恰印证了我最初的观点——你正在用高铁硬卧车厢里的直觉,去强行点评你根本没有科学评估能力的尖端技术。你说“没有可观测的差距是在扯淡”,那我们就来把这个“扯淡”拆解一下,看看究竟是谁在反智。你之所以觉得“有差距”,是因为你陷入了以下三个致命的认知盲区:
    第一点:你无视了“任务天花板效应”
    我原话的前提非常明确:“对于绝大多数没那么抽象、没那么复杂的日常工作”。
    这就好比,你让博尔特和苏炳添去跑一个 10 米的比赛,两人的成绩可能都是 1 秒出头,你肉眼根本看不出差距。你能说“他俩没有可观测差距是在扯淡”吗?不能,因为 10 米的赛道根本测不出他们的极限。
    当今主流模型在基础代码生成、日常公文写作、常规 API 调用上的能力值都在 95 分以上,而你手头工作的难度满分只有 50 分。他们交出来的都是 50 分的满分答卷,你非要拿着放大镜说“A 模型的代码多了一个换行,B 模型的语气更像真人”,这不叫“发现能力差距”,这叫“主观审美偏好”。
    第二点:你把“对齐偏好”和“温度随机性”当成了“智力差距”
    你所谓的“可观测的差距”,90%以上根本不是模型智力的差距,而是 RLHF 的对齐策略不同,或者是单次生成的随机性噪音。在默认的 Temperature 设定下,LLM 的输出本质上是概率分布。你让同一个模型写两次贪吃蛇,一次可能完美运行,一次可能少个依赖库。如果你拿 A 模型的第一次去对比 B 模型的第二次,然后得出“A 比 B 强”的结论,这在统计学上叫“毫无意义的单样本比较”。把产品经理设定的“系统提示词”和“UI 渲染风格”当成模型的底层推理能力来点评,就如同你觉得外卖小哥跑得不够快,是因为他穿了黄衣服而不是蓝衣服一样荒谬。
    第三点:你迷信你的“体感”,却无视了量化科学
    你可能觉得 Benchmark 是扯淡,你自己测的才真实。但事实是,LMSYS Chatbot Arena 、SWE-bench 这些涉及数十万次双盲测试、上万个真实 GitHub issue 的统计结果显示:在绝大部分非极端推理任务中,这些头部模型的胜率差已经缩小到了统计学上的误差边缘以内。
    科学界用了几十万个测试用例得出的结论是“头部模型正在同质化、能力正在逼近收敛”,而你仅仅靠自己下班后随手打了三个 Prompt ,一看其中一个报错了,就一拍大腿说“差距明显”,你不觉得这种“体感”太廉价、太傲慢了吗?
    如果你觉得我"扯淡",证明“这些主流大模型在日常任务中存在巨大的、决定性的能力差距”,请你拿出控制了变量、消除了随机性、具备统计学意义的对比测试报告。
    如果你拿不出来,只能继续举例子说“我昨天让 A 写了个贪吃蛇没跑通,B 跑通了”,那你就永远只是那个对着丘成桐和陶哲轩的满分试卷,评价谁的字写得比较好看的高中生。
    microscopec
        113
    microscopec  
       5 小时 37 分钟前
    @hhh12 别的不知道,sonnet4.6 这样稳定输出代码,一句话、甚至半句话就能理解原意,不需要重复修改代码,能自己按照规范写,目前还没见过,gpt5.5 不行,gemini3.1pro 不行,deepseek 根本理解不了话,并且输出了一坨屎...
    SeanZen
        114
    SeanZen  
       5 小时 35 分钟前
    @hhh12 用模型不就是工作嘛,我不拿这个判断,我拿哪个判断。。
    hhh12
        115
    hhh12  
       5 小时 31 分钟前   ❤️ 1
    @microscopec 你极力夸赞 Sonnet 能够“一句话甚至半句话就理解原意,不需要重复修改”。你说的这根本不叫模型的逻辑推理能力强,这叫 Anthropic 在 RLHF 阶段,针对程序员的“代码补全场景”做了极度的讨好和过拟合。
    什么叫“半句话就能写代码”?这意味着模型在疯狂地猜测你没有说出来的上下文。你在用一种极其偷懒、不规范的提示词习惯,去测试哪个模型更像你肚子里的蛔虫。你觉得这叫差距?就好比你去餐厅点菜,只说了一句“随便弄点好吃的”,A 厨师猜对了你的口味,B 厨师没猜对,你就到处宣扬“B 厨师做的就是一坨屎,根本不会做饭”。这不叫评测厨艺,这叫你在给模型算命。真正严谨的软件工程测试,给的都是结构化、清晰且毫无歧义的完整 PRD 和约束条件。在这种标准输入下,你提到的这些最新顶尖模型,输出的质量根本没有你所谓“一坨屎和神仙”的差距。
    daimaosix
        116
    daimaosix  
       5 小时 30 分钟前
    @hhh12 大多数人没有像你研究的那么深入,因此我也不知道你说的真假,只看到了你写了大量的比喻,遗憾的是,我花钱买模型用,哪个好用哪个不好用我自己很清楚。就这么简单。
    hhh12
        117
    hhh12  
       5 小时 29 分钟前   ❤️ 1
    @SeanZen 作为消费者,你拿工作体验来“挑选工具”完全没问题;但作为评论者,你拿工作体验来“评判尖端大模型的智力差距”,就是傲慢且无知。你把“产品体验”和“模型基础能力”完全混为一谈了。这就好比,你每天的工作是去超市买菜,你发现一辆自动挡的丰田卡罗拉开起来极其顺手,而一辆手动挡的 F1 赛车你不仅开不好,甚至一踩油门就熄火。于是你破口大骂:“F1 赛车就是一坨屎,根本没法开,跟我的卡罗拉有不可逾越的差距!”
    ebushicao
        118
    ebushicao  
       5 小时 8 分钟前
    @hhh12 那我就得拿出上周我用 glm-5.1 写一个简单的后端服务的案例来反驳你了,接口需要认证才能调用这个功能很普通,没那么抽象吧?实现一个登录接口同样不是什么逻辑复杂的工作吧?但是 glm-5.1 把登录接口也加了认证,导致整个服务不可用,还在我明确说明登录接口提示 401 之后 glm-5.1 依旧没能解决,只是加了一个日志然后让我重试之后把日志信息发给它,在发了日志之后它才终于明白是因为它把登录接口添加了认证要求。同样的问题我没在其它模型碰到过。至于你说的 benchmark ,minimax2.7 是个更典型的例子,很多时候不显式指定连 skill 都不会调用,同样的提示词 kimi 、glm 都没有问题。
    coefu
        119
    coefu  
       4 小时 36 分钟前
    @hhh12 #10 一帮只会点三板斧,连高德纳 具体数学 估计都整不明白的 三脚猫,臧否起来,全身上下就只有嘴是最硬的。
    mansunyunxin
        120
    mansunyunxin  
       3 小时 10 分钟前   ❤️ 1
    「没有灵性」这个问题,最近在研究 GPT-5.5 和 DeepSeek V4 技术报告时想到一个可能的解释:

    模型缺的不是「灵性」,是「业务上下文」。

    当一个模型在纯代码任务上很强但业务决策上很弱,核心原因是训练数据里「代码变更的因果链」信号清晰,但「业务变更的代价」信号几乎不存在。

    Gemini 会提反对意见,是因为它的训练数据里有更多「从业务后果反推」的高质量决策样本——不是它更聪明,是它见过更多「这样改后来出了问题」的历史。

    解决方式不是换模型,是补充上下文。把「为什么这样设计」「改了这个会影响什么」写进 Prompt 或项目文档,让模型在足够的业务语境里运行。

    没有灵性的本质是:没有足够的信息让模型做有根据的判断。给它足够的信息,灵性会自己出现。
    1  2  
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2708 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 56ms · UTC 15:16 · PVG 23:16 · LAX 08:16 · JFK 11:16
    ♥ Do have faith in what you're doing.