开源了一个 LLM 推理服务监控面板

开源了一个 LLM 推理服务监控面板 项目地址： https://github.com/coolwolfqs/llm-inference-monitor

为什么做这个

最近在用 llama.cpp 跑推理服务，一直缺一个好用的监控面板。

网上方案无非两条路：

Prometheus + Grafana → 太重了，为了看个 GPU 温度搭一套监控体系
nvidia-smi 刷屏 → 原始，但就看个 GPU ，CPU/内存/推理指标全没有

于是自己搓了一个面板，现在整理成开源项目放出来了。不会编程，全程就由 hermes 待开发，不成熟之处各位看官多包涵。

长什么样

一个页面搞定所有监控信息，分成几个区域：

服务概览区

当前运行的模型、上下文长度、量化精度
引擎版本号（ llama.cpp / vllm ）
健康评分（硬件分 + 系统分 + 推理分）

GPU 区

利用率 / 显存 / 温度 / 功耗实时曲线图
每张卡的详细信息（频率、PCIe 链路、编码器负载）
带 GPU 进程列表（看一眼就知道谁在吃显存）

系统区

CPU 每核利用率热力图
内存 / Swap / 缓存
磁盘读写速度 + 分区使用率
网络实时吞吐量

推理区

TPS 实时心电图
KV Cache 占用 + 剩余可用 Token 估算
TTFT / TPOT / KV 命中率 / MTP 投机解码加速比
IP 级 Token 消耗统计

技术栈

后端：Python FastAPI + psutil + nvidia-smi
前端：纯 HTML + CSS + JS （无框架，无需构建）
图表：Canvas 原生绘制（贝塞尔曲线，防抖重绘）
实时：SSE 推送（ 2 秒间隔） + HTTP 轮询（ 30 秒兜底）
部署：pip install -r requirements.txt 就行

整个项目 30 多个文件，前端零依赖，后端只依赖 FastAPI 、psutil 、aiohttp 三个库。

快速体验

git clone GitHub - coolwolfqs/llm-inference-monitor: Real-time monitoring dashboard for LLM inference services
cd llm-inference-monitor
pip install -r requirements.txt
python -m backend.server

打开 http://localhost:8081 就能看到面板了。

如果需要采集推理指标，旁边跑一个 llama.cpp server （默认 8080 端口）就行，自动对接。

项目地址

https://github.com/coolwolfqs/llm-inference-monitor

欢迎 Star 、Fork 、PR ，觉得有用的话也欢迎转发。

补充说明：项目从生产环境的内部面板整理而来，核心逻辑和 UI 布局都保留了原样，只是把后端从单体改成了模块化采集器架构，方便大家按需增删监控指标。中英文双语文档都有。

有什么问题或者建议可以直接回帖，也可以 GitHub 提 Issue 。