有搞深度学习的朋友吗,你们训练模型的时候都在干什么啊?

2018-08-28 10:57:02 +08:00
 VisionTheta

楼主最近在训(tiao)练(can)一个模型,因为训练量比较大,基本 3~4 天一个模型。虽然我知道,我盯着它看也不会起什么作用,但作为一个如果有快递,一天要刷新好几遍快递配送信息的人,模型基本也是半小时盯一次,尤其是这组超参比较管用、或者新实现了一个功能等。

看在哪里训练了,如果在工位机上训练,基本显存占满了,机器开个 chrome 或者 vscode 也会比较卡。所以,对我来说,工位机这种半残废的状态,基本做不了其他的什么了。如果在服务器上训练,盯着的就是模型掉没掉,虽然卡多,但是排队用的人也多啊,一会儿不看,你模型掉了,别人就来训练了。

V 友们在训练模型的时候都在同期做什么啊?我见过有研究新论文的,有划水的,写博客的,像我一样不断盯模型的。当然,我觉得一直盯模型,有一点好处,就是对走势把握的比较准,虽然现在也有early_stop,但是调超参过程中,多看一些曲线的走势还是能积累不少经验的。

你们都在哪里训练自己的模型呢?服务器端你们有调度软件或者预约系统吗?当然,如果在大厂的话,机器多,估计也有集群管理软件。

想听听你们的声音!

9040 次点击
所在节点    程序员
37 条回复
JeffKing
2018-08-28 11:44:51 +08:00
划水 喝茶 吃饼干🍪
yvanst
2018-08-28 11:51:09 +08:00
心安理得地玩手机
diggerdu
2018-08-28 11:54:31 +08:00
睡觉,看看 V2EX 扭腰时报 reddit/r/machinelearning
delectate
2018-08-28 12:15:45 +08:00
撸铁。
udumbara
2018-08-28 12:35:29 +08:00
写部署代码
frinstioAKL
2018-08-28 12:44:35 +08:00
虽然计划好利用这个空闲去读论文,学学代码什么的,但是总忍不住隔三差五去看看 acc 和 loss 曲线,心里总是很挂念,忍不住。
Weny
2018-08-28 12:46:25 +08:00
送外卖啊 还能补贴家用
fl2d
2018-08-28 12:51:42 +08:00
主显示器上,一个窗口是各种曲线,一个窗口哗哗的打印各种实时数据。以此证明我在干活。
其他显示器上,想干嘛干嘛。
thonatos
2018-08-28 13:00:28 +08:00
easylee
2018-08-28 13:03:31 +08:00
建议分布式运算。
ZRS
2018-08-28 13:13:50 +08:00
当然是摸鱼啊
vipfts
2018-08-28 13:19:32 +08:00
女朋友
janxin
2018-08-28 13:21:10 +08:00
VisionTheta
2018-08-28 13:22:51 +08:00
@easylee 现在是三台机都在算,但是分布式会比单机多卡这种降低准确率,所以如果刷榜的话,我觉得还是不用分布式好。

@fl2d 我一般不把终端放在窗口最上方,怕误触个什么组合键,把训练打断。

@frinstioAKL 哈哈哈,我是每 30 分钟 summary 一次,比你看的还勤。

@udumbara 你是说写其他机器 /超参训练过程的部署代码,还是说写测试阶段的代码,亦或是模型部署,用在产品上。。

@Weny 还能上班去送外卖了?羡慕。
frinstioAKL
2018-08-28 13:27:55 +08:00
@VisionTheta 我是把主机的 ssh 做了个端口转发,然后在随便一个大显示器主机上挂着主机的 tensorboard 曲线,然后。。。过一会忍不住就想去瞄一下曲线
northisland
2018-08-28 16:37:25 +08:00
写业务

上面能给出跑起训练的空闲,我都万分感谢了
UN2758
2018-08-28 18:02:16 +08:00
当然是扣 jio,扣鼻屎啦 XD
mogami18
2018-08-28 19:25:03 +08:00
当然是不断优化代码啦
VisionTheta
2018-08-28 19:31:16 +08:00
@mogami18 是代码层面的还是什么层面?如果是从开源项目上,我觉得没有什么可以改得了啊。。如果是超参层面,一般我这组超参调完之前,是不会想新的思路的,有了思路也没卡练。

@frinstioAKL 我也开了 board,但一般都等不及刷新,去控制台看,哈哈

@janxin 我改 tensorflow 代码的时候也要从头编译,工位机编译一次要半个小时。
mogami18
2018-08-28 19:35:13 +08:00
@VisionTheta 我之前是做过一点 parameter server engine 研发,所以我个人只能从性能上优化系统本身实现,而优化不了算法和参数,哈哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/483875

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX