V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
greentim
V2EX  ›  问与答

用 AI 替代传统 RPA 的 开源 Skill 方案

  •  
  •   greentim · 11 小时 27 分钟前 · 508 次点击

    Hi ,大家好! 大家好,我是 Zhiwei ,一直做 AI 和 AI Agent 方向的研究。 最近发布了一个 OpenClaw Skill ,把它开源了 “让龙虾自动生成机器人程序 RPA ,不再让大模型反复花 Token 的钱”。我主要目的希望替换过去传统 高昂开发成本的 RPA ,对比下它们

    竞争优势分析:RPA 的演进

    特性 传统 RPA (UIPath 等) 纯 LLM Agent (Browser-use 等) OpenClaw-RPA (编译器模式)
    开发成本 (人工编写选择器与逻辑) (自然语言描述) 极低 (自动记录并编译)
    运行成本 (昂贵的商业授权) 极高 (每次运行均消耗 Token) 接近零 (原生 Python 脚本运行)
    执行速度 中等 缓慢 (受大模型推理延迟影响) 极快 (代码级原生执行速度)
    稳定性 脆弱 (网页改版即失效) 随机性 (存在模型幻觉风险) 确定性 (高可靠代码执行)
    2FA 处理 极其复杂 昂贵 (需实时推理配合) 简单 (Session 一次性捕获)
    部署环境 Windows & MS Office 依赖 灵活 (但运行成本高) 云原生 (支持 Linux/Docker)
    技术架构 人工绘制流程图 实时在线推理 一次推理 → 编译 → 永久重放

    我说下背景

    工作场景中,用 OpenClaw 或者 智能体 操作浏览器、办公软件、和本地文件做定时任务时,有几个问题让我很头疼:

    用 OpenClaw 让模型直接浏览器、电脑、第三方系统

    1. 幻觉——模型有时会点错按钮、找错元素、自己编一个不存在的操作
    2. 费用——每次重复任务都调大模型,token 烧得很快
    3. 每次用模型,自动化操作,速度很慢

    于是做了一个 RPA (自动化机器人程序) 技能来根本性地解决问题

    🔴 核心思路 录制一次真实操作 → 自动生成 机器人 RPA 脚本 → 以后直接跑脚本。 不再调大模型,没有幻觉,每次执行路径完全一致,结果可预期。

    ✅ 主要功能 • 在真实 Chrome 、Computer 里逐步录制,AI 模拟操作,完全记录指令 • 生成可独立运行的 .py 文件,脱离 OpenClaw 也能跑 • 在 OpenClaw + 飞书/IM 里可以发 #rpa-run:任务名 随时触发或定时执行

    还能录什么(不止浏览器)

    2 、HTTP API GET / POST 任意 REST 接口,保存 JSON ;密钥可写入生成脚本(触发含 #rpa-api )。

    3 、Excel (.xlsx ) 新建/更新工作簿、多 Sheet 、表头与冻结行;可从 JSON 等动态写行( openpyxl ,无需装 Excel )。

    4 、Word (.docx ) 段落 + 表格报告( python-docx ,无需 Microsoft Office )。

    5 、自动登录 #rpa-login 人工登录一次并保存 Cookie ;后续录制与回放自动注入,减少短信/滑块/扫码反复折腾。

    混合流程 网页 + API + Excel + Word 等可在同一任务里串起来(例如对账:拉接口 → 表格匹配 → Word 出表)

    📌 典型场景 电商登录下单、Yahoo 财经行情抓取、豆瓣影评提取、纯 API 拉数、本地财务报表 Excel/Word 对账 录一次,之后随时回放,每次结果稳定一致。

    📖 详细介绍和安装说明: https://github.com/laziobird/openclaw-rpa/blob/main/README.zh-CN.md 里面有案例视频演示

    Skill 地址 https://clawhub.ai/laziobird/openclaw-rpa

    1 、行情 API + 新闻 + 本地简报(#rpa-api )

    说明:HTTP 拉 JSON + 浏览器新闻页 + 合并简报;本节以文案与 API 说明为主。 文档: https://github.com/laziobird/openclaw-rpa/blob/main/README.zh-CN.md#api-quotes-news-brief-zh

    2 、飞书 / Lark:#rpa-list / #rpa-run

    说明:IM 里列任务、执行、定时类用法演示。 https://github.com/laziobird/openclaw-rpa/blob/main/README.zh-CN.md

    3 、自动登录( Cookie ):电商购物自动登录 说明:#rpa-login 存 Cookie → 录制/回放自动注入。 https://github.com/laziobird/openclaw-rpa/blob/main/articles/autologin-tutorial.md

    4 、财务系统对账( API + Excel + Word ) 说明:API 财务系统 + 本地 Excel 匹配 + Word 表格报告。 https://github.com/laziobird/openclaw-rpa/blob/main/articles/scenario-ap-reconciliation.md

    推荐使用大模型:Minimax 2.7 、>= Gemini Pro 3.0 、Claude Sonnet 4.6

    14 条回复    2026-04-10 00:17:18 +08:00
    sparkssssssss
        1
    sparkssssssss  
       10 小时 17 分钟前
    没有图形界面的 server ,是不是没法使用了
    yukinotech
        2
    yukinotech  
       9 小时 51 分钟前
    如果是这样,ai 就变成了一个胶水层,其实很有意思,项目这样设计,意味着承认了 ai 取代不了自动化,也取代不了人。

    取代不了自动化程序:ai 的自动化既不快,又不稳定,类似的产品就是 browser-use ,看起来美好,实际上跑起来很难绷
    取代不了人:ai 有点智能,但仅限于有点智能,稍微遇到点复杂问题或者意外变量就卡壳了,还是得让人来判断,帮 ai 跳过卡点
    总结就是大模型上下文还是不够长,智能还是不够,判断能力还是欠缺
    greentim
        3
    greentim  
    OP
       8 小时 56 分钟前
    @sparkssssssss 可以看下视频,没有图形界面的,支持 API 录制
    bestie
        4
    bestie  
       8 小时 55 分钟前
    类似的,以前手写自动化(N8N)之类的很麻烦,纯 AI 自动化很费 TOKEN 容易死。那么用 AI 来生成 N8N 自动化工作流,就能够用最少的 TOKEN ,最快的速度来执行
    greentim
        5
    greentim  
    OP
       8 小时 55 分钟前
    @yukinotech 你提的很好,其实 很多场景还是适合 RPA 自动化机器人。 现在好处:利用 AI 自动生成 RPA ,而不是过去去开发 RPA
    greentim
        6
    greentim  
    OP
       8 小时 54 分钟前
    @bestie 你说得很对!以后还真可以这么干
    Sh1xin
        7
    Sh1xin  
       8 小时 51 分钟前
    @greentim 方便说下吗,我也在做 RPA 和 AI 方向的项目。我感觉目前 RPA 还保留的场景在于外部的 web 系统,当爬虫、自动化使用,以及桌面 APP 。其他的如果是内部系统,那么可以直接通过接口打通,RPA 太慢太重了。
    现在也是在苦恼于 RPA 在面对外部 web 系统的时候,频繁的变化,导致要一直做运维,成本很高,但是 browser-use 稳定性极差,又不满足需求
    greentim
        8
    greentim  
    OP
       8 小时 15 分钟前
    @Sh1xin “其他的如果是内部系统,那么可以直接通过接口打通,RPA 太慢太重了” 用 API 打通的 RPA ,不应该更简单么? “现在也是在苦恼于 RPA 在面对外部 web 系统的时候,频繁的变化,导致要一直做运维,成本很高,但是 browser-use 稳定性极差,又不满足需求” 项目 https://github.com/laziobird/openclaw-rpa 是这样解决的:因为可以录制生成 RPA ,如果外部系统发生频繁变化,重新录制,又可以用一段时间,无非花一点 token 的钱。
    greentim
        9
    greentim  
    OP
       8 小时 9 分钟前
    如果大家感兴趣,欢迎大家提 issue 和建议
    To5tE
        10
    To5tE  
       6 小时 32 分钟前
    上架产品 不同类目的产品属性不一样 也就是页面表单有一部分是不一样的
    能自动根据标题描述去识别填写吗
    greentim
        11
    greentim  
    OP
       5 小时 50 分钟前
    @To5tE 具体可以去 github 提 issue 功能,我会定期看看大家需求,然后看看要不要增强。
    JShen
        12
    JShen  
       3 小时 44 分钟前
    录制的原理是啥呢。录制像素点?
    JShen
        13
    JShen  
       3 小时 28 分钟前
    录制准不准啊,比如点击了一个元素,这个元素可能是动态的 Id
    greentim
        14
    greentim  
    OP
       51 分钟前
    @JShen 如果录制 Browser ,我的建议

    **不建议使用——容易失败或需要人工干预:**
    | 场景 | 原因 |
    |------|------|
    | **高度动态的 SPA**(重度客户端路由、DOM 频繁变动) | 选择器在每次渲染间可能发生偏移; snapshot 可能遗漏未渲染内容 |
    | **登录后才可访问且无保存会话的流程** | 需手动处理账号密码与二次验证,回放前须先登录 |
    | **无稳定 ID 的无限下拉流** | 渐进式探测有帮助,但结果可能不稳定 |
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1361 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 17:08 · PVG 01:08 · LAX 10:08 · JFK 13:08
    ♥ Do have faith in what you're doing.