神经网络了训练时候报 MemoryError，在线请教

2019-12-14 20:48:08 +08:00

suifengingo

在做图像分类，上千类图像，训练神经网络的时候，程序报错 data = np.array(data, dtype="float") / 255.0 MemoryError （补充：本人已经测试，在选用比较少类别图像的时候，该代码是可以成功运行并能生成训练出的模型文件，但是扩展到上千类之后就报 MemoryError，之前网上搜了相关的错误，有的说是数据增强的原因，可是取消在线数据增强之后，仍然报这个错误，百思不得其解，望能得到高手大佬们的指点帮助，在此小生先谢谢了！

4905 次点击

所在节点

Python

16 条回复

malusama

2019-12-14 20:52:04 +08:00

上 64 位或者手动 gc

suifengingo

2019-12-14 21:02:18 +08:00

@malusama 我用的是 64 位的机器，内存 32G...不知您所说的手动 gc 是什么意思呢

chempotato

2019-12-14 21:12:16 +08:00

gc 内存回收啊

lspvic

2019-12-14 22:35:55 +08:00

减小 batch_size

szxczyc

2019-12-14 22:41:14 +08:00

@lspvic #4 变小了效果会变差的

nasmatic

2019-12-14 22:46:58 +08:00

@szxczyc 其实还得看实际场景，如果减小了练出来的模型满足需求就行

helloworld000

2019-12-14 22:51:48 +08:00

1. 减少 batch size
2. quantlization （最简单的，把 tensor 默认的为 float64，改成 float16 ）
3. 上 cluster

mayfly233

2019-12-15 00:07:40 +08:00

减少 batch size 再做 batch accumulation 呗，不就一样了

或者就用 apex fp16，立竿见影，不过看框架兼容

lonelygo

2019-12-15 11:02:04 +08:00

几张卡？加起来都多大内存？
减小 batch_size，从 2 开始吧，要是=2 都不行，只能考虑上 cluster 了。
还有就是降到半精度试试看
或者，把主干网换一个不太深的。

suifengingo

2019-12-15 11:53:22 +08:00

谢谢大佬们的热心解答，我再去按照大佬们说的试试看

laminux29

2019-12-15 13:33:37 +08:00

用 SSD 做虚拟内存。

tfdetang

2019-12-15 14:51:08 +08:00

你这句报错是在 input 输入的时候就报错了？所以数据生成部分是怎么写的？可以试试 tf.data

dick20cm

2019-12-15 15:28:35 +08:00

兄弟，别搞这个了，你不适合，真心劝退

rpman

2019-12-15 16:51:10 +08:00

内存不够吧。

suifengingo

2019-12-15 20:38:51 +08:00

@mayfly233 请问下如何加入 batch accumulation ？虚心求教

mayfly233

2019-12-15 21:35:26 +08:00

第一个 batch 计算完别更新梯度，算完第二个 batch 再合并起来更新梯度，不就相当于累积 batch size x 2 了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/629090

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.