你好,V 友们!
我最近开源了一个 SLO (Service Level Objectives) 治理平台:DeepSLO。目标是帮助团队摆脱繁琐的手动计算和故障排查,通过数据驱动和 AI 辅助。也是对 AI 与运维的一个探索。希望可以给大家带来一些启发~
"""
DeepSLO 让团队能够快速回答:💡
- “这个季度的误差预算还剩多少?”
- “哪些拨测场景导致了连续中断?”
- “针对本周异常,AI 建议的优化重点是什么?”
"""
项目地址: https://github.com/CallStorm/DeepSLO
❓ DeepSLO 解决了什么问题?
在追求高可用性的过程中,核心痛点往往是:
- 数据孤岛: 拨测数据散落在各个平台,SLO 状态需要手动汇总计算。
- 误差预算黑箱: 不知道当前周期(月/年)还能容忍多少故障时间。
- 故障诊断效率低: 出现中断后,缺乏快速、结构化的诊断报告和优化建议。
✨ 核心功能概览
1. 📈 SLO 大屏与误差预算实时追踪
- 数据源: 深度集成 MeterSphere 拨测数据。
- 实时计算: 针对月度/年度周期,实时展示 SLO 达成率、剩余误差预算。
- 中断分析: 自动识别拨测失败窗口,按周期计算总中断时长和趋势。
2. 🤖 AI 辅助洞察与诊断
DeepSLO 集成了 DeepSeek / 火山引擎 / OpenAI 兼容接口,能够:
- 流式生成报告: 基于 SLO 数据和中断事件,自动生成结构化的分析报告。
- 内置聊天: 在前端直接与模型交互,快速获取优化建议。
- 报告导出: 一键导出 PDF 报告,便于汇报与归档。
感谢 V 友们的关注,给一个 Star 鼓励一下!有任何问题欢迎在评论区或 GitHub Issue 中提出。