开源了一个 LLM 推理服务监控面板 项目地址: https://github.com/coolwolfqs/llm-inference-monitor
最近在用 llama.cpp 跑推理服务,一直缺一个好用的监控面板。
网上方案无非两条路:
一个页面搞定所有监控信息,分成几个区域:
服务概览区
GPU 区
系统区
推理区
后端:Python FastAPI + psutil + nvidia-smi
前端:纯 HTML + CSS + JS (无框架,无需构建)
图表:Canvas 原生绘制(贝塞尔曲线,防抖重绘)
实时:SSE 推送( 2 秒间隔) + HTTP 轮询( 30 秒兜底)
部署:pip install -r requirements.txt 就行
整个项目 30 多个文件,前端零依赖,后端只依赖 FastAPI 、psutil 、aiohttp 三个库。
git clone GitHub - coolwolfqs/llm-inference-monitor: Real-time monitoring dashboard for LLM inference services
cd llm-inference-monitor
pip install -r requirements.txt
python -m backend.server
打开 http://localhost:8081 就能看到面板了。
如果需要采集推理指标,旁边跑一个 llama.cpp server (默认 8080 端口)就行,自动对接。
https://github.com/coolwolfqs/llm-inference-monitor
欢迎 Star 、Fork 、PR ,觉得有用的话也欢迎转发。
补充说明:项目从生产环境的内部面板整理而来,核心逻辑和 UI 布局都保留了原样,只是把后端从单体改成了模块化采集器架构,方便大家按需增删监控指标。中英文双语文档都有。
有什么问题或者建议可以直接回帖,也可以 GitHub 提 Issue 。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.