怎么得到 NVIDIA GPU UUID 和 NVIDIA GPU Minor Number 的对应关系呢?

2021-11-25 11:01:09 +08:00
 fighterhit

我发现 GPU 节点上 /dev/nvidiaX 后面的 X 表示的是 NVIDIA GPU 的 Minor Number ,但是我现在想在程序里得到 NVIDIA GPU 的 UUID 和 X 对应关系(在非 GPU 节点上远程去获取信息),该怎么做呢?除了远程执行 nvidia-smi --query | grep "GPU UUID\|Minor Number" 这种获取全部信息后再过滤还有别的好办法吗?我看nvidia-smi --query-gpu=xx,yy,zz 这种好像不支持查询 Minor Number...

2384 次点击
所在节点    NVIDIA
11 条回复
ysc3839
2021-11-25 11:12:58 +08:00
搜了下 nvidia-smi 是封装 NVML 的,你可以考虑直接调用 NVML https://stackoverflow.com/a/14907871/6911112
NVML 有 Python 的绑定 https://pypi.org/project/nvidia-ml-py/
fighterhit
2021-11-25 11:29:20 +08:00
@ysc3839 谢谢大佬回复,这个方法也考虑过,但实际情况不是在 GPU 节点上执行,实际上是在 k8s 调度器的 pod 内(非 GPU 节点)想通过 exec 方式进入到 GPU 节点上的 GPU pod 内获取信息,这种方式感觉需要在那个容器装包,似乎有点点麻烦..
ysc3839
2021-11-25 12:15:39 +08:00
@fighterhit 装包指的是?如果指的是 NVML ,你装了 nvidia-smi 的话就肯定有呀。
fighterhit
2021-11-25 14:11:54 +08:00
@ysc3839 就是需要在被执行的容器里装 nvml 相关的包
fighterhit
2021-11-25 14:14:45 +08:00
@ysc3839 目的容器是 NVIDIA k8s-device-plugin ,这里面有 nvidia-smi ,但是发现没 python 。。
ysc3839
2021-11-25 14:57:02 +08:00
@fighterhit 不一定要装 Python 呀,NVML 是 C 语言的库,如果你连额外的 C 程序都不想装的话,那看看有没有别的能调用 C 接口的工具吧。
fighterhit
2021-11-25 16:25:17 +08:00
@ysc3839 喔,我明白你的意思了,你是说 nvml 有的话,用 c 再写个程序调用这个库来实现吗?
ysc3839
2021-11-25 18:30:57 +08:00
@fighterhit 是的
xxb
2021-11-25 19:46:34 +08:00
我更想知道和物理插槽的对应关系
xxb
2021-11-25 20:08:46 +08:00
nvidia-smi -L 可能是楼主想要的
fighterhit
2021-11-25 21:52:48 +08:00
@xxb 不不,nvidia-smi -L 前面那个仅仅是 pcie index ,和 minor number 不一样,主要是想要 /dev/nvidiaX 文件后面这个序号 X ,而这个 X 是 GPU minor number ,你可以看下 nvidia-smi --query 的输出

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/817835

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX