这份 Markdown 排版整理了你的核心思路,结构清晰,突出了痛点,非常适合发在技术论坛、GitHub Issue 或团队内部讨论中。你可以直接复制使用。
我正在开发一款 AIOps 运维助手,技术栈基于 HolmesGPT 和 LangGraph。
目前需要将架构扩展为 多集群管理模式:
针对该场景,我尝试了以下两种方案,但都存在明显的瓶颈:
架构:在 Management 部署 AIOps Brain ,在 100 个子集群中各部署一个 MCP Pod ,Agent 同时连接这 100 个 MCP 。
prometheus_query 工具,难以区分或准确路由。架构:在 Management 部署 AIOps Brain 和一个“增强版” MCP 。工具被改造为接受 k8s-config 或 cluster-id 参数。
大家针对这种 “单脑指挥、多端执行” 且涉及 海量工具上下文 和 异构网络访问 的场景,有什么好的架构建议吗?
有没有一种既能保留子集群操作能力,又不会撑爆 Token ,且能并行高效执行的方案?
既然你问到了解决方案,我也顺便给出一个比较成熟的 “联邦路由 + 异步任务” 思路供你参考:
推荐架构:三层架构 (Brain -> Router MCP -> Edge MCP)
**Brain (管控层)**:
Router MCP。dispatch_task(cluster_selector, tool_name, params)。**Router MCP (中间件/网关)**:
Edge MCP 的连接(可以使用 gRPC 长链接或消息队列,而不是让 Agent 直接连 SSE )。**Edge MCP (子集群层)**:
解决串行与结果过大问题:
job_id 给 Agent ,告诉它“任务已下发,正在计算中”。check_status(job_id) 来获取。总结:不要让 LLM 直接面对 100 个环境,在中间加一层“传统的代码逻辑层”来处理路由和数据聚合。
让 ai 排了个版 https://linux.do/t/topic/1683663 这里有一些图
1
godymho 1 天前
使用传统的批处理类似 ansible 等来进行批量执行和结果回收
ai 主要用于 plan 制定,结果分析以及下一步批处理建议 小白路过 |
2
Clannad0708 OP @godymho #1 agent+ansible 吗...难度是否太高,感觉不可控啊
|
3
godymho 1 天前
1. 最后的三层架构里面的第四点,是类似的思路,它使用 Router MCP 来实现
|
4
Clannad0708 OP @godymho #3 AI 回复的只是架构上能通的方式。主要是 mcp 里面 tool 的设计之前都是针对本地运行的。跨节点跨网段的 tool 可能就不支持
|
5
godymho 23 小时 39 分钟前
@Clannad0708 skill 或者 mcp 里面,调用传统工具,传统工具处理这些多节点的事情手到擒来
|