给 OpenClaw 做了个安全插件,希望能让主力机器也放心运行 OpenClaw

3 月 23 日
 lznwpu
最近做了个 OpenClaw 的安全插件,叫 SecurityClaw 。

主要是因为我自己越来越觉得:
AI Agent 一旦开始有文件读写、命令执行、插件调用这些能力,风险模型就和普通对话型 AI 完全不一样了。

但很多本地 Agent 工具在安全这块还比较早期。
能力发展很快,边界、审计、审批这些机制相对落后。

现在主流的安全策略还是依赖 prompt 约束,这很依赖模型遵循指令的能力。

所以我做了个插件,想让 OpenClaw 更安全一些。

现在大概支持这些功能:

• 运行时拦截高危工具调用
• 高风险操作审批
• 敏感信息检测和脱敏
• OpenClaw 配置安全检查,一键修复
• 插件 / skill 风险分析
• 事件审计和 dashboard

开源仓库在这里:

https://github.com/znary/securityclaw

这东西还在继续打磨,不过我比较想听真实使用场景下的反馈,而不是闭门造车。

比较关心几个问题:

• 如果 Agent 跑在你的主力机器上,你最在意的风险点是什么?
• 你会希望哪些操作默认被拦住?
• 你觉得“审批”这件事在日常使用里会不会太打断体验?

如果大家有想法,欢迎拍砖。
669 次点击
所在节点    分享创造
3 条回复
samzong
3 月 23 日
想法很好,而且挺全面的,点个 star
kylehuangyu
3 月 24 日
我认为如果完全要防止 agent 做任何恶意的行为很难,prompt injection 还有欺骗总能绕开。只有在 container 里面运行,限制 container 的权限
lznwpu
3 月 24 日
@kylehuangyu 嗯,是的,但大部分有实质性的破坏还是通过 tool call 实现的,比如删文件,窃取验证码等,在这一层管控一下会好很多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1200520

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX