[开源] 视觉状态机 + Electron,让 AI 自己操作微信/企微/WhatsApp

4 月 14 日
 jacsice

写了个东西,开源了:sightflow.dev (代码会在本周同步在 GitHub ,同步在网站上)

一句话:给大模型装眼睛和手。它能自己打开微信、企业微信、WhatsApp ,像人一样看界面、读消息、打字回复。

不是 API 套壳——因为这几个平台根本没给开发者开放可用的 API 。

核心方案:

最难的部分(视觉执行层)我已经啃完了,代码已开源。上层留了一个本地 Skill Server ,你只需要写业务逻辑(比如自动客诉、销售跟进、群回复),不用碰底层。

适用场景:

为什么搞这个? 因为全球 5000 万+ 企业用 WhatsApp Business ,中国 1200 万+ 企业微信用户,但官方接口要么没有,要么贵得离谱。AI Agent 想落地到最赚钱的业务场景,绕不开这些平台。

现状:

有场景的开发者欢迎 clone 下来跑一跑,也欢迎讨论。

2015 次点击
所在节点    分享创造
19 条回复
MoozLee
4 月 14 日
关注下,可以在 rpa 数据采集中使用吗
partner666
4 月 14 日
能把我打副本吗😊
510908220
4 月 14 日
看起来很有意思,体验体验
xialaoban
4 月 14 日
识别速度能做到打游戏的话!
cairnechen
4 月 14 日
怎么解决模型视觉识别的坐标漂移的啊? opus4.6 视觉识别 800×600 的图片都会缩放 官方说的 1580px 根本做不到
haoxuexiaoyao
4 月 14 日
网址呢
v1
4 月 15 日
但官方接口要么没有,要么贵得离谱

你猜猜能撑多久不封号?
Ghostsss
4 月 15 日
视觉应该是后面发展的一个方向。不过识别 定位 理解 执行 这一串流程,我到现在都没有完全走通,期待
Ghostsss
4 月 16 日
非常不错的思路,使用归一化坐标,从来没想过的方向。
jacsice
4 月 17 日
jacsice
4 月 17 日
jacsice
4 月 17 日
jacsice
4 月 17 日
jacsice
4 月 17 日
jacsice
4 月 17 日
cairnechen
4 月 17 日
@jacsice op 你有用通用模型试过这套流程吗?
caoyang5689
4 月 17 日
npm error command git --no-replace-objects ls-remote ssh://git@github.com/shiflow2023/robotjs.git
npm error git@github.com: Permission denied (publickey).
这个依赖没放开,win 可以推一个安装包到 git 不
510908220
4 月 17 日
@cairnechen #16 npm error An unknown git error occurred
npm error command git --no-replace-objects ls-remote ssh://git@github.com/shiflow2023/robotjs.git
npm error git@github.com: Permission denied (publickey).
npm error fatal: Could not read from remote repository.
jacsice
4 月 18 日
@cairnechen 跑过,能正常运行的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1205821

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX