PyTorch 中的 DataParallel 和 DistributeDataParallel 疑问

2019 年 11 月 22 日
 douglas1997

环境:单机(一个 Node ),4 块 GPU 卡

PyTorch 在训练的时候有两种可选模式,第一种是 DataParallel ( DP )模式,第二种是 DistributeDataParallel ( DDP ),我在实测中发现:

我看了官方的文档:https://pytorch.org/tutorials/intermediate/ddp_tutorial.html

我有几个问题:

  1. 有什么策略能够判断 DP 的情况下,单卡是绑定了一个进程还是说 4 卡绑定了一个进程呢?
  2. 公司精通 CUDA 底层的同事和我说,这两种模式本质上是等价的,那么这个说法是对的吗?如果是对的,为什么等价,如果不对,差异在哪里呢。
1890 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/622252

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX