开源了一个 LLM 推理服务监控面板

14 小时 55 分钟前
 invdan

开源了一个 LLM 推理服务监控面板 项目地址https://github.com/coolwolfqs/llm-inference-monitor


为什么做这个

最近在用 llama.cpp 跑推理服务,一直缺一个好用的监控面板。

网上方案无非两条路:

  1. Prometheus + Grafana → 太重了,为了看个 GPU 温度搭一套监控体系
  2. nvidia-smi 刷屏 → 原始,但就看个 GPU ,CPU/内存/推理指标全没有

于是自己搓了一个面板,现在整理成开源项目放出来了。不会编程,全程就由 hermes 待开发,不成熟之处各位看官多包涵。

长什么样

一个页面搞定所有监控信息,分成几个区域:

服务概览区

GPU 区

系统区

推理区


技术栈

后端:Python FastAPI + psutil + nvidia-smi
前端:纯 HTML + CSS + JS (无框架,无需构建)
图表:Canvas 原生绘制(贝塞尔曲线,防抖重绘)
实时:SSE 推送( 2 秒间隔) + HTTP 轮询( 30 秒兜底)
部署:pip install -r requirements.txt 就行

整个项目 30 多个文件,前端零依赖,后端只依赖 FastAPI 、psutil 、aiohttp 三个库。


快速体验

git clone GitHub - coolwolfqs/llm-inference-monitor: Real-time monitoring dashboard for LLM inference services
cd llm-inference-monitor
pip install -r requirements.txt
python -m backend.server

打开 http://localhost:8081 就能看到面板了。

如果需要采集推理指标,旁边跑一个 llama.cpp server (默认 8080 端口)就行,自动对接。


项目地址

https://github.com/coolwolfqs/llm-inference-monitor

欢迎 Star 、Fork 、PR ,觉得有用的话也欢迎转发。


补充说明:项目从生产环境的内部面板整理而来,核心逻辑和 UI 布局都保留了原样,只是把后端从单体改成了模块化采集器架构,方便大家按需增删监控指标。中英文双语文档都有。

有什么问题或者建议可以直接回帖,也可以 GitHub 提 Issue 。

450 次点击
所在节点    Local LLM
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1221902

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX