https://github.com/deepseek-ai/DeepSeek-V3
看了下 Code 榜单,性能提升挺明显。
像 Aider 、Polyglot 这类任务,和日常用自然语言修改的准确率体感是比较接近的。如果不刻意刷榜,感觉至少接近 3.5 Sonnet 的水平了。
官方 API 价格虽然涨了几倍,但相比 OpenAI 和 Claude 依然是白菜价,输出 100 万 token 就 1 刀出头。
已经把 avante.nvim 的默认模型从 Sonnet 换到 V3 了,接下来几天打算实际测试下提问和修改的准确率。 之前尝试用 2.5 平替但是准确率和 Sonnet 差的还是挺远的,希望这次效果不会失望。
|      1mumbler      308 天前 性价比最高的还是 gemini 2.0 flash,免费 1500qpd, 100 万上下文,多模态,能力和 gpt4o 一个级别, 收费也才 1 元人民币/M | 
|      2hbdh5      308 天前  3 没人关注训练部分吗?看看原始论文,推理部分的优化似乎来自蒸馏自家的推理模型,auxilary loss 动态调度负载 + DualPipe 优化 pipeline bubbles + 根据通信做混合精度优化, 计算与通信的瓶颈的优化做到极致了。以至于训练成本只有 500 多万刀,和 o 家和 g 家比算是用乞丐的成本达成了至少也是不相上下的结果。要我说,closedai 不做人干脆把 gpu 匀给 deepseek ,可惜匀不得。 | 
|  |      3dwu8555      308 天前 | 
|  |      5apollo007      308 天前 via iPhone 我觉得这个处理文科类的,效果比 claude 3.0 opus 还牛 | 
|      8suguo210      307 天前 幻方用来收割韭菜的利器 | 
|  |      9AlexHsu      307 天前 这玩意有 671b 参数?本地弄起来得多少 h100 啊 | 
|  |      10FakerLeung      307 天前 写代码跟 claude3.5 比起来如何? | 
|      11andrew2558      307 天前 看了很多人推荐 deepseek,所以也想试一下,好家伙,要电话号码不说,还要身份证号码。闪了闪了 | 
|  |      12houshuu OP @FakerLeung  榜单上的话不说同水平,至少逼近是有的。 但这个实际效果还得自己去体感测试下,反正现在用 API 还是打折的,一百万 token 才两块钱,放到 cursor ,avante 里面高强度用个一周先看看效果。 也可以试试网页版的 V3 ,注册后是纯免费的。 | 
|      13dgthyiolyjmyt2      307 天前 @dwu8555 幻方的,还是 fp8 训练的,训练过程全程无回滚 | 
|  |      14houshuu OP @andrew2558 不需要吧,用英语界面试试,海外也挺多用 deepseek 的 | 
|  |      16neteroster      307 天前 via Android 先不谈性能,工程上就很强。整个模型训练的 H800 GPU Hour 甚至低于训练两次 LLaMA3 8B 的 H100 GPU Hour ,这还是在 H800 阉割了互联的情况下 | 
|      17hbdh5      307 天前  1 @neteroster 是的,论文主要的亮点就是训练部分,不得不说还得是 MoE ,要是 dense 模型参数太大的话一张卡放不下数据交换的妈都不认识,根本没地应用这么多优化。只能送钱给老黄。 | 
|  |      18xiaket      306 天前 英文版只要求邮箱验证, 而且可以用微信支付来避免付美元的手续费 | 
|  |      19xiaket      306 天前 我自己试用了一下, 让模型回答旅行制定行程和关于 AWS/GCP 的技术问题, 两个场景的结论都合乎我的要求. 于是充值了 50 块, 准备用用看 | 
|      20ziding      302 天前 我自己的使用经验是性价比爆棚,效果比 qwen2.5 要强,已经满足我的需求了 | 
|      21huanggua      279 天前 能介绍下怎么配置 avante deepseek 嘛,用 lazy.nvim , lua | 
|  |      22houshuu OP |