两个占用内存大小 20G+的矩阵做相乘， 10 块 GPU

计算逻辑很简单就是: a@b 想使用 pytorch 做 GPU 计算，10 块 GPU 的显存都是 10G ，想问问大家有好办法吗？

Scirocco

2021-12-11 16:22:36 +08:00

说实话没怎么看明白。。就是普通的矩阵作乘法吗？那感觉没必要用 pytorch 呀？

gckend

2021-12-11 16:24:08 +08:00

@Scirocco 主要是为了方便做 GPU 计算，其他框架也可以

Scirocco

2021-12-11 16:27:37 +08:00

@gckend #2 或许可以考虑直接用 C 写 cuda 程序？

不过我也不知道 20G 这么大的矩阵怎么处理，以及多 GPU 怎么一起用。。只能提供思路，抛砖引玉 2333

miracleyin

2021-12-11 16:45:49 +08:00

如果是稀疏矩阵的话可以通过 TORCH.SPARSE 这样的 api 来写，如果是非稠密的可能得思考为什么会有那么大的矩阵乘法了。

gckend

2021-12-11 17:26:39 +08:00

@mingl0280 谢谢，不过这个并不适合我的场景。

@miracleyin 是稠密矩阵，应用场景如此，直接乘可能不行，想要找个合适的切割矩阵的方案。

Juszoe

2021-12-11 18:55:27 +08:00

可以考虑用矩阵分块乘法，可以将一次矩阵乘法分步计算，用 pytorch 应该不难实现，同时还能利用多块 GPU

hbdh5

2021-12-11 19:39:31 +08:00

简单分个块不就可以么，20g+的话分成 2x2 就行了，数据算完就取回内存或者先暂存到磁盘，乘的时候可以用 strassen 算法能减少一次子块乘

woctordho

2021-12-11 22:06:36 +08:00

原理无非就是分块，可以试试 Dask 这个包

c0xt30a

2021-12-11 22:46:51 +08:00

ABx = A(Bx)
如果有 x 这个向量的话

zhoujinjing09

2021-12-12 01:17:50 +08:00

分块就行了呀，就要手动分一下

dayeye2006199

2021-12-12 02:26:39 +08:00

zhoujinjing09

2021-12-12 04:51:13 +08:00

或者精度要求不高的话可以考虑半精度，bfloat16 或者 tf32

necomancer

2021-12-13 13:19:54 +08:00

矩阵分块

|A B| |E F| = | AE+BG AF +BH|
|C D| |G H| |CE+DG CF+DH|

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.