计算单精度和半精度浮点数的矩阵运算时, GPU 相比 CPU 是否有数量级的领先?

2020-08-07 15:16:28 +08:00
 threebr
大量的低阶矩阵和向量的乘法运算,形式均为[N×N]×[N×1],也就是 N 维矩阵乘 N 维向量,N 的大小在几十到几百。运算次数在亿的量级。

对计算精度要求很低,半精度浮点数甚至 int16/int8 都可以。不需要保存一些中间结果,所以需要的内存不多。

现在我用的 12 核 3900x 跑并行计算,但需要几个小时的时间,如果换成 RTX2070 这样的显卡或者 Cloud TPU 这样的云服务能不能在数量级上缩短时间?
1533 次点击
所在节点    问与答
5 条回复
wutiantong
2020-08-07 15:18:23 +08:00
一次性任务么?几个小时就跑完这完全能忍啊
threebr
2020-08-07 15:22:06 +08:00
@wutiantong 不是一次性的,算半个炼丹吧,效果不好就还要继续
lloovve
2020-08-07 16:17:50 +08:00
3900 5t 显卡 7t 没啥区别
thedrwu
2020-08-07 16:29:40 +08:00
对于相乘本身来说,是。但如果有其他中间步骤另当别论。
不同尺寸和硬件的 GEMM 算法的优化也能造成很大的区别。
threebr
2020-08-07 17:12:40 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/696474

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX