有搞深度学习的朋友吗,你们训练模型的时候都在干什么啊?

2018-08-28 10:57:02 +08:00
 VisionTheta

楼主最近在训(tiao)练(can)一个模型,因为训练量比较大,基本 3~4 天一个模型。虽然我知道,我盯着它看也不会起什么作用,但作为一个如果有快递,一天要刷新好几遍快递配送信息的人,模型基本也是半小时盯一次,尤其是这组超参比较管用、或者新实现了一个功能等。

看在哪里训练了,如果在工位机上训练,基本显存占满了,机器开个 chrome 或者 vscode 也会比较卡。所以,对我来说,工位机这种半残废的状态,基本做不了其他的什么了。如果在服务器上训练,盯着的就是模型掉没掉,虽然卡多,但是排队用的人也多啊,一会儿不看,你模型掉了,别人就来训练了。

V 友们在训练模型的时候都在同期做什么啊?我见过有研究新论文的,有划水的,写博客的,像我一样不断盯模型的。当然,我觉得一直盯模型,有一点好处,就是对走势把握的比较准,虽然现在也有early_stop,但是调超参过程中,多看一些曲线的走势还是能积累不少经验的。

你们都在哪里训练自己的模型呢?服务器端你们有调度软件或者预约系统吗?当然,如果在大厂的话,机器多,估计也有集群管理软件。

想听听你们的声音!

9048 次点击
所在节点    程序员
37 条回复
sangleft
2018-08-28 19:45:16 +08:00
学生表示会刷 leetcode 和论坛。。
icylogic
2018-08-28 23:02:55 +08:00
我们服务器够每个人用,所以不用排队。。。当然也可能你们网络本身就需要很多服务器,我们网络小,一人一块卡就够;
我是在服务器上开 vscode/nsight,X11 回来,只要加了 -C,同时开四五个基本和在本地用没太大差别;
这行工位上的台式机基本就是用来开 shell 和浏览器的。我工位上四个显示屏,1 号看浏览器,2 号开 terminator 切分几个 shell,3 号竖屏看代码和文档,4 号是个 windows 笔记本用来处理些别的事;
写其他代码、看书 paper 文档、发呆、和同事聊些工作上的事……
WeberXie
2018-08-28 23:18:13 +08:00
@mogami18 兄弟在哪个厂,想和你交流下
mogami18
2018-08-28 23:52:04 +08:00
@WeberXie 上面 ps 开发的皮毛都是我在本科念书的时候学的,我们当时本来是想借鉴 NSDI 2017 里面 TuX2 的这个系统,也搞一个用 distributed graph mining system 来做得比 ps 更快更好的系统,可惜后来系统胎死腹中,老板不支持,说没有创新性,发不了好 paper。我现在也就能吹吹我作为 co-author 发表的 eurosys 和 tpds 的 paper 了。。。
mogami18
2018-08-28 23:55:57 +08:00
@WeberXie 另外我现在做的很简单,在厂里用 linux C++每天撸撸倒排索引引擎(extremely trivial 的那种),目前在考外语,准备找机会年后重回学校找个有 funding 的老板资助我读书呢
mogami18
2018-08-28 23:57:16 +08:00
@WeberXie 我 miaoliu95@acm.org 可以 email 相互认识下
closedevice
2018-08-28 23:57:18 +08:00
和学妹聊天啊
t6attack
2018-08-29 00:07:33 +08:00
编译中~ 扫描中~ 渲染中~ 备份中~ 导入中~ 爬取中~ 训练中~。。。
悠闲的计算机工作者
dangyuluo
2018-08-29 00:27:17 +08:00
你应该做一个 Telegram 通知,这样就不用随时盯着了。好使
mogami18
2018-08-29 00:30:24 +08:00
@dangyuluo 我读 phd 的同学,做了一个微信 bot,train 完直接发微信消息,lol
jinyu121
2018-08-29 07:43:13 +08:00
有时候自己的程序非常奇怪,你只要盯着它,它就给你跑得好好的。你睡个午觉、吃个饭、甚至上个厕所,反正只要有一会儿不盯着,它就死给你看。

其他情况一般是泡在 github 上。

至于通知……没有 tg 的情况下可以用 aws 的 sns 短信通知,很简单。缺点是比较贵,大概 3 毛一条短信。楼上能把 tg 通知的代码共享一下咩?
VisionTheta
2018-08-29 09:09:12 +08:00
@mogami18 是做厂里自己的引擎?你做的是单机多卡的 ps server ?这种一般是放在 CPU 上吧? 还是分布式 ps server ?跟 tensorflow 的效率比过吗? 单机多卡的 tf, 我发现用的卡越多(当然最多 8 张),启动过程越慢,现在我用 8 卡,启动一次甚至都要 10 分钟。我看了一下应该不是磁盘的锅,反倒觉得有可能是 tf 的 coordinator 的问题。

@sangleft 哈哈,现在 leetcode 刷了多少道题了?自己刷还是跟别人一起组队刷啊?

@icylogic 四个显示器有点壕,我是一个显示器,外加一台自己带的设备。以前工位装过两个显示器,但是后来觉得,无论看哪个地方,都有显示器的光包围着,时间长了眼睛受不了,就拆了一个。你四个显示器是怎么装的啊?上面两个,下面两个?

@dangyuluo 我用 iOS 上的一个叫`Bark`的 app, 也可以推送模型的训练效果,还可以推送哪个模型掉了, 不过差不多都是 get 或者 post 一个请求。但是这种我只传了一个当时的准确率,感觉 board 的话,还可以把趋势图拟合出来,还是喜欢 board 多一些。

@jinyu121 我的模型要三四天,我发现是分白天和晚上。如果晚上涨了很多,你白天高高兴兴的去上班,结果一天都在抖。如果晚上没涨,你打算去换一组参数,结果一直涨个不停,不给你停的机会。。
mogami18
2018-08-29 13:19:19 +08:00
@VisionTheta 厂里可没有专攻系统方向的博士做这些,所以厂里用的都是开源的系统。上面那些都是我读本科的时候,跟着当时带我的 phd 师兄们一起做的。至于 ps 系统,对比的主要是 petuum parameter server 的开源版本 bosen 等系统。
mogami18
2018-08-29 13:20:51 +08:00
@VisionTheta 楼主可以看看 VLDB 2018 FlexPS 这篇 paper,有开源实现的
icylogic
2018-08-30 08:36:29 +08:00
@VisionTheta 从左到右排开啊,半环绕的效果。。。
反正公司显示器在库房放着也是吃灰。不如拿来用。。
icylogic
2018-08-30 08:37:55 +08:00
@VisionTheta 长时间看显示器这个事,本来坐半个小时就应该起来活动一下,打个水上个厕所之类的。
achersion
2019-11-11 16:04:55 +08:00
当然是不断的划水, 看小说,刷副本了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/483875

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX