这套流程可以让 AI 自动操作浏览器,代替你完成一切机械重复性的工作,而且特别的省 TOKEN 。
很多工作流甚至全程不需要 AI 参与,0 TOKEN 就能把自动化任务跑起来。比如可以 0 TOKEN 抓取电商网站评论,导出成 CSV 文件,自动把 Markdown 文章发布到 x ,还有对自己开发的 Web APP 进行 AI 自动化测试。我们并不需要懂浏览器的相关知识,只用自然语言就能完成这些任务。
本期视频我们使用的 Agent 框架是 Claude Code 或者 Codex 。
浏览器自动化方案是 Playwright CLI 搭配配套的 Skill 。
Playwright CLI 是 26 年初微软开源的全新浏览器自动化工具。
Github 首页:
https://github.com/microsoft/playwright-cli
根据官方的基准测试,playwright CLI 比起传统的 playwright MCP 方案,差不多能够减少 4 倍的 TOKEN 消耗
工具搭建好以后,我们可以把很多固定的工作流程沉淀成 skills ,让 AI 能够又快又省的完成任务。甚至熟练后你会发现很多固定流程甚至不需要 AI 参与,只需要让 AI 编写好一个固定的脚本,就可以 0 TOKEN 全自动完成工作。好废话不多说,我们直接开始。
在开始之前,我们需要先确保电脑上安装了 nodejs 。如果没有安装过,可以来到 nodejs 的官网,根据自己的操作系统下载对应的安装包
https://nodejs.org/en/download
然后我们打开一个命令行终端,输入这个命令安装 playwright CLI
我们来测试一下。我们可以使用这个命令,使用 Playwright CLI 操作 Chrome 浏览器打开谷歌的官网
playwright-cli open google.com --headed
最后一个参数–headed表示使用的是有头浏览器,如果不加这个参数,Playwright 默认使用的是无头浏览器。无头浏览器会在后台静默运行,虽然比较省内存,但是我们看不到浏览器的页面。所以为了方便调试,我们一般加上这个参数–headed 。回车,playwright CLI 自动操作 Chrome 打开了我们要的网页 。
我们在控制台这边可以看到,playwright CLI 只是输出了一简洁的网页摘要,而没有返回整个网页的全部 DOM 结构
playwright-cli screenshot
Screenshot 是给浏览器截图,我们看到截屏的时候它还是以一个 PNG 的文件的形式存放在了电脑的本地磁盘上
--persistent。persistent 表示把 cookie 、登录状态、本地存储之类的数据写到磁盘里面,下次使用的时候继续拿出来用,这样就不需要每次都重新登录了。比如这里我带着 persistent 执行一下
playwright-cli open google.com --headed --persistent
,因为我之前登录过,我们打开的谷歌首页就变成了已经登录过的状态了
本期视频主要使用的 Agent 框架是 Claude code 和 Codex 。爬爬虾之前有很多期视频介绍 Codex 或者 Claude code 了,这里我就不赘述了 。playwright CLI 是一个新诞生的命令行工具,AI 并不知道该如何使用这些命令,所以我们需要给 AI 搭配 skills 来一起使用。
Playright CLI 作为技术底座,而 skills 作为说明文档,CLI 加 skills 搭配起来使用,就可以取代传统的 MCP 方式,这也是最近的一个技术发展趋势。我们先新建一个项目文件夹,打开这个文件夹,打开命令行终端,我们直接输入这个命令给文件夹里面安装 skills
playwright-cli install --skills
这样 skills 就安装完成了,它放到了我们新建的项目文件夹的目录下面 。然后我们就可以启动 Claude Code ,我来询问它你有哪些 skills ,它可以成功的读取到 playwright CLI 技能,这样我们就成功的把它接入了 Claude code
我们来看一个复杂一些的例子,使用 playwright CLI 查看这个商品前 100 条评论,然后保存到一个 CSV 文件里面
创建一个新的 skill ,把刚才打开网站,查看评论,并且保存评论的全过程,还有遇到的坑都提炼出来,保存到这个 skills 里面,后面我只要让你保存评论,你就能调用这个 skill 完成任务。AI 帮我们创建了 skill ,
AI 帮我们创建了 skill ,把这个任务里面可以复用的内容都固化进了知识。这里我让他修改一下,把 skill 放到项目目录里面
抓取评论是一个固定流程,其实并不需要 AI 进行智能化的控制。我们可以直接把它编写成一个固定的脚本。这里输入提示词
你把刚才所有的 playwright cli 命令汇总成一个脚本,执行脚本就能获取商品的前 100 条评论,并且保存到一个 CSV 文件里面。注意每一步都要有合理的延时与等待,确保任务成功。脚本写完你先测试一轮。
很快 Codex 为我们编写完成了脚本,它已经自己测试通过了。我们来看一下这个脚本长什么样 在我这个 Windows 电脑上就是这么一个 Powershell 的脚本
我们再来看一个实战案例。最近爬爬虾把自己的视频用 AI 转成图文教程,然后发到各个平台上面。大部分平台发文章都比较简单,唯独有一个平台 X ,发文章的步骤非常的繁琐。这是我的一个 Markdown 格式的笔记文章 我们注意到这个文章是不能直接以 Markdown 格式粘贴过来的,首先这个格式会错乱,第二个问题是图片都展示不出来。然后我又测试了一下,如果使用 html 格式是可以粘贴的,但是又出现了一个新的问题,图片是粘贴不过来的,图片都变成了这么一个照相机的小符号
帮我编写一个 Python 脚本,把文章里的图片下载到本地,从 001 开始编号,放到这个文件夹里面,先转换成一个只使用本地图片的 Markdown 文章,然后运行 pandoc 把本地图片的 Markdown 文章转换成 html 格式。注意 html 格式里面每张图都应该是独立段落。
使用 playwright CLI ,先打开这个网站,创建一个新的文章,然后把这个 html 的内容粘贴进去,找到所有的这种照相机的这种小图标的位置,先按退格键删除掉小图标,然后在图片文件夹里面找到图片,先复制出来,按 Ctrl+V ,再粘贴进去。这个小 icon 的数量跟图片的数量是相等的,我需要它按顺序替换。
好我们开始。AI 为我们打开了浏览器,创建了一个新的草稿,把 html 格式的文章粘贴进去了,然后它开始为我们一张张的上传图片,把原来的占位符删除掉,然后一张张的替换成真正的图片。我们看到它正在一张张的帮我们自动化的替换,整个过程非常的顺利。
https://github.com/tech-shrimp/x-article-auto-publisher-skill
感兴趣的观众朋友们,可以来参考试一下。不过我这个是 Windows 电脑的,如果是其他操作系统,可以让 AI 参考这个 skill 来改一下。相信按照我这套流程,大家都可以编写出属于自己的 skill 。
我们这套浏览器自动化流程,一个重要的应用就是对自己写的 Web APP 进行自动化测试。比如这里我开发了一个简历润色美化的网页 APP
阅读代码,把从注册开始的主体流程写一个中文的测试文档,然后再用 playwright CLI 打开网页,根据你的测试用例完成测试。
AI 通过阅读代码学习到了这个项目的功能,然后确认了主体流程。接下来它开始编写测试文档。测试文档编写好了,这里包含第一步做什么,第二步做什么,第三步做什么
我们也可以要求 AI 编写更多的测试用例,使用 playwright CLI 进行全自动的测试。还可以使用 OpenClaw 这种带定时任务的 Agent 框架,让它定时对我们的系统进行测试。一旦我们修改出来了 bug ,AI 就能全自动的发现并且告诉我们,省去了很多的人工测试成本,对我们开发网页 APP 会很有帮助。好这就是本期视频全部内容了,感谢大家点赞支持,我们下期再见。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.