没用过 opus4.6 + agents + skills + mcp 组合的人不足以谈 AI 编程

我知道这个标题很冲，但我说的是真心话。

今天看到"AI 编程不过如此"的帖子，点进去一看，不是在吐槽不准，就是在说离做的好差很远。说实话这些我都经历过，去年我也是这个看法。

但现在的 AI 编程已经完全不是那个东西了。

我现在的工作流大概是这样：

我是项目经理，AI 是干活的工程师团队。

不是比喻，是字面意思。我描述需求和约束，agent 自己读项目源码、理解模块关系、开分支写实现、build 报错自己看 log 改、跑通测试、提 PR 。我 review 完 merge 。一个中等复杂度的功能，从描述到 merge 可能就 20 分钟。

这里面几个关键的东西缺一不可：

1. 模型能力是底座

Opus 4.6 这个级别的模型，上下文理解和代码推理能力跟之前的模型真的不是一回事。不是"更好一点"，是质变。它能在一个几万行的项目里自己翻文件找依赖，写出来的代码风格跟项目一致。之前的模型做不到这个。

2. Agent 是手和脚

光有聪明的大脑没用，得能自己操作。Agent 工作流让模型不再是个对话框，而是一个能读文件、跑命令、看报错、自己迭代修复的执行者。这个差距就像你跟一个人微信聊技术方案 vs 直接让他坐你旁边开电脑干活。

3. Skills 是经验

你可以把特定领域的最佳实践、项目规范、工具使用方法封装成 skill 喂给 agent 。相当于这个"工程师"入职的时候就已经读完了所有内部文档。不用你每次都从头教。

4. MCP 是工具箱

让 agent 能直接操作外部工具和服务——数据库、API 、CI/CD 、各种 SaaS 。不是让你手动复制粘贴中间结果，而是 agent 自己调用、自己处理返回值、自己决定下一步。

这四个东西组合起来，才是 2026 年 AI 编程该有的样子。你拿 2024 年的 Copilot 体验来评价现在的 AI 编程，就像拿塞班手机的体验来评价智能手机一样荒谬。

我不是说 AI 能取代程序员——架构决策、需求判断、代码 review 这些还得人来。但执行层面的效率提升是 5-10 倍，这个不夸张。以前要写半天的东西，现在真的是描述清楚然后等 20 分钟。

所以当我看到有人还在说"AI 编程就是个玩具"的时候，我真的很想问一句：你用的是什么？什么时候的东西？

不是所有 AI 编程都叫 AI 编程。

有同感的吗？或者有人用了完整工具链之后觉得也不过如此的，也欢迎来说说。

bigxixi

3 月 19 日

好奇 AI 怎么做真机测试？我们有的 H5 项目，调动效和兼容性，都是 qa 拿几十个不同型号不同系统版本的手机，视觉和动效逐个对着调的，经常有那种不报错但画面就是不对的情况（不仅仅是 CSS ），需要肉眼验证再改。
opus4.6 很强，但体验下来他也做不到兼容很多老旧机型或者特定版本，比如 iOS 17.3.1 的某个 bug ，其他版本没有（往前的没出现，往后的修复了），但后台数据告诉你这个版本的用户数量不能忽视，而且大概率是钉子户不愿升级系统或者换手机那种，这种我们人工验证个几天总能找出来处理，AI 怎么验证呢？
我能想到的就是每个手机用一个摄像头对着屏幕，如果带交互的就用机械手操作（虚拟操作会引入其他 bug ），这样静态的视觉 bug 我理解可以找出来，动效 bug 能行吗？

dodoa

3 月 19 日

@JYii #7 AI 能写测试代码，但不能做测试设计
人（或者 AI 帮你）定义测试场景和关键断言（哪些条件组合、预期什么行为、哪些边界必须覆盖）
AI 负责把这些场景翻译成测试代码（ setup 、teardown 、fixture 、具体的 assert 写法）
复杂业务的条件矩阵，人来画表格，AI 来生成对应的 parameterized test

针对复杂业务如何全条件回归测试？（不是技术做不到，是需要人来设计这套东西）
假设你要测"用户注册 → 邮箱验证 → 首次登录 → 引导流程"这条链路：

```
人：定义场景
├── 正常注册 → 点验证链接 → 登录成功 → 看到引导
├── 注册后不验证 → 登录被拒 → 提示重发邮件
├── 验证链接过期 → 重新申请 → 新链接有效
└── 重复注册同一邮箱 → 报错提示

AI：执行
├── 起 postgres + redis + 邮件 stub 服务
├── 每个场景真实调 API ，真实查库
├── 邮件 stub 捕获验证链接，自动"点击"
└── 断言数据库状态 + API 返回值 + 邮件发送记录
```