没用过 opus4.6 + agents + skills + mcp 组合的人不足以谈 AI 编程

3 月 19 日
 dodoa

我知道这个标题很冲,但我说的是真心话。

今天看到"AI 编程不过如此"的帖子,点进去一看,不是在吐槽不准,就是在说离做的好差很远。说实话这些我都经历过,去年我也是这个看法。

但现在的 AI 编程已经完全不是那个东西了。

我现在的工作流大概是这样:

我是项目经理,AI 是干活的工程师团队。

不是比喻,是字面意思。我描述需求和约束,agent 自己读项目源码、理解模块关系、开分支写实现、build 报错自己看 log 改、跑通测试、提 PR 。我 review 完 merge 。一个中等复杂度的功能,从描述到 merge 可能就 20 分钟。

这里面几个关键的东西缺一不可:

1. 模型能力是底座

Opus 4.6 这个级别的模型,上下文理解和代码推理能力跟之前的模型真的不是一回事。不是"更好一点",是质变。它能在一个几万行的项目里自己翻文件找依赖,写出来的代码风格跟项目一致。之前的模型做不到这个。

2. Agent 是手和脚

光有聪明的大脑没用,得能自己操作。Agent 工作流让模型不再是个对话框,而是一个能读文件、跑命令、看报错、自己迭代修复的执行者。这个差距就像你跟一个人微信聊技术方案 vs 直接让他坐你旁边开电脑干活。

3. Skills 是经验

你可以把特定领域的最佳实践、项目规范、工具使用方法封装成 skill 喂给 agent 。相当于这个"工程师"入职的时候就已经读完了所有内部文档。不用你每次都从头教。

4. MCP 是工具箱

让 agent 能直接操作外部工具和服务——数据库、API 、CI/CD 、各种 SaaS 。不是让你手动复制粘贴中间结果,而是 agent 自己调用、自己处理返回值、自己决定下一步。

这四个东西组合起来,才是 2026 年 AI 编程该有的样子。你拿 2024 年的 Copilot 体验来评价现在的 AI 编程,就像拿塞班手机的体验来评价智能手机一样荒谬。

我不是说 AI 能取代程序员——架构决策、需求判断、代码 review 这些还得人来。但执行层面的效率提升是 5-10 倍,这个不夸张。以前要写半天的东西,现在真的是描述清楚然后等 20 分钟。

所以当我看到有人还在说"AI 编程就是个玩具"的时候,我真的很想问一句:你用的是什么?什么时候的东西?

不是所有 AI 编程都叫 AI 编程。

有同感的吗?或者有人用了完整工具链之后觉得也不过如此的,也欢迎来说说。

18893 次点击
所在节点    程序员
160 条回复
Alias4ck
3 月 19 日
仔细想起来, 没 AI 之前人解决大部分的问题也和这个模式差不多
florentino
3 月 19 日
现在最主要的问题是他妈的 claude 封号
xiahl1990
3 月 19 日
是这样的思路
nc
3 月 19 日
skills 和 mcp 没啥用,特别是 mcp ,污染上下文
cvbnt
3 月 19 日
大概一年前 cursor 也有人说不会 cursor 就不配谈编程,现在变化太快,我无法想象半年后会推出什么样的东西
dodoa
3 月 19 日
@florentino #2 我 AppStore 开的 max ,自己用 2 年了 大部分时间都是美国节点,偶尔也会新加坡、日本、台湾来回切,从来没封过
JYii
3 月 19 日
我只想知道所谓的 AI 测试什么样子。
单测里都是 happy path + 浅断言?
追求分支覆盖率爆炸代码量?
多 step 、第三方系统调用全靠 mock ?
针对复杂业务如何全条件回归测试?
我昨天在其他帖子也有同样疑问。
Zenon
3 月 19 日
要钱的啊,那算了
dodoa
3 月 19 日
@nc #4 有些时候 mcp 还是很有用的,比如让 AI 实现设计师画好的 UI 时。用 figma mcp 基本可以直接画出来。
remember5
3 月 19 日
日常开发中 mcp 用的很少了,转 skills 了
liu731
3 月 19 日
只用 WPS,没用过 Office 的人不足以谈电脑办公
jrtzxh020
3 月 19 日
目前最大的问题是 token 哗哗的没了
YanSeven
3 月 19 日
赞同。
soleils
3 月 19 日
之前我就发过贴, 太多人用着国内 TRAE, 用 DeepSeek 模型写代码,然后说 AI 编程垃圾
apkapb
3 月 19 日
skill 在 ai 编程这块确实非常重要, 是一个 AI 编程的重要组成部分;

它的原理一点不复杂,但是需要一个人、一个组织去推动,去统一规范。

----

特别是 curd 项目,要增加一个功能,api endpoint 怎么写,biz 层怎么写,redis 中有哪些注意的点,慢慢把这些 skill 补齐。你就会发现,AI 写得比我好,完全没有屎山的样子(它写得都是屎山了,那我写得是啥了....)
outman87
3 月 19 日
opus4.6 在 copilot 中是三倍的 token 消耗速度...
hxzhouh1
3 月 19 日
@liu731 你这是抬杠,
op 说 opus4.6 可能是 有点狭隘了,毕竟我用 codex 中的 gpt 5.4 执行这一套流程 也行。

但是 agents + skills + mcp 这一套确实可以极大的提高生产力。 跟 wps 与 office 这种对比完全不一样。
bigxixi
3 月 19 日
好奇 AI 怎么做真机测试?我们有的 H5 项目,调动效和兼容性,都是 qa 拿几十个不同型号不同系统版本的手机,视觉和动效逐个对着调的,经常有那种不报错但画面就是不对的情况(不仅仅是 CSS ),需要肉眼验证再改。
opus4.6 很强,但体验下来他也做不到兼容很多老旧机型或者特定版本,比如 iOS 17.3.1 的某个 bug ,其他版本没有(往前的没出现,往后的修复了),但后台数据告诉你这个版本的用户数量不能忽视,而且大概率是钉子户不愿升级系统或者换手机那种,这种我们人工验证个几天总能找出来处理,AI 怎么验证呢?
我能想到的就是每个手机用一个摄像头对着屏幕,如果带交互的就用机械手操作(虚拟操作会引入其他 bug ),这样静态的视觉 bug 我理解可以找出来,动效 bug 能行吗?

dodoa
3 月 19 日
@JYii #7 AI 能写测试代码,但不能做测试设计
人(或者 AI 帮你)定义测试场景和关键断言(哪些条件组合、预期什么行为、哪 些边界必须覆盖)
AI 负责把这些场景翻译成测试代码( setup 、teardown 、fixture 、具体的 assert 写法)
复杂业务的条件矩阵,人来画表格,AI 来生成对应的 parameterized test

针对复杂业务如何全条件回归测试?(不是技术做不到,是需要人来设计这套东西)
假设你要测"用户注册 → 邮箱验证 → 首次登录 → 引导流程"这条链路:

```
人:定义场景
├── 正常注册 → 点验证链接 → 登录成功 → 看到引导
├── 注册后不验证 → 登录被拒 → 提示重发邮件
├── 验证链接过期 → 重新申请 → 新链接有效
└── 重复注册同一邮箱 → 报错提示

AI:执行
├── 起 postgres + redis + 邮件 stub 服务
├── 每个场景真实调 API ,真实查库
├── 邮件 stub 捕获验证链接,自动"点击"
└── 断言数据库状态 + API 返回值 + 邮件发送记录
```
dongzhuo777
3 月 19 日
羡慕能本地编译跑通测试的产品和开发模式。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1199424

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX