V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xwander
V2EX  ›  硬件

实验室想采购个深度学习工作站,候选采购商给了个配置建议,菜鸡不是很懂,希望大佬们给个建议

  •  2
     
  •   xwander · 2020-06-04 19:19:55 +08:00 · 4304 次点击
    这是一个创建于 751 天前的主题,其中的信息可能已经有所发展或是发生改变。

    实验室情况是:

    1.人很多,并且目前没有旧的可用,好像是原来有但出问题了,我之前帮师兄跑实验都是自费买的 GPU 租赁服务,泪目。

    2.主要的计算任务是 NLP 方向的。

    3.GPU 服务器计划放入空调房,噪音和产热问题好像并不用太过担心。

    4.预算方面不能一次性超 10 万,如果存储空间不够,可以后续添加。


    楼上实验室给我推荐的采购商的建议是:

    CPU:2* 英特尔 XEON E5-2680V4/14 核 /28 线程 /2.4GHz-3.3GHz

    内存:6* 32GB R-ECC DDR4 2666MHz 服务器内存(共有 24 个内存插槽,剩余 18 个)

    硬盘:960G SATA 2.5 寸 企业级固态硬盘+4TB SATA 7.2K 3.5 寸 企业级机械硬盘(共有 24 个硬盘插槽,剩余 22 个)

    电源:2000W 2+2 钛金级冗余电源,最大支持 8 块 GPU

    显卡:4*NVIDIA Geforce RTX 2080Ti 11G (共有 8 个 GPU 插槽,剩余 4 个)


    本人的一些不成熟的想法:SSD 是不是该上 nvme (或 M.2 的 nvme ),速度才是重点,空间是其次?以后有其他预算是扩容还是另外选购新机器?

    第 1 条附言  ·  2020-06-05 15:45:56 +08:00
    感谢大佬们的意见。

    综合一下,我们打算改成:

    1.效率相关,内存要么 4 条,要么 8 条,我们用 4 条就好了。

    2.是我上面写得不够明白,其实电源是 4 个,一组两个,一组共 4000W,第二组做备用,应该够用了。

    3.显卡改为 RTX8000 或 RTX6000,单卡显存大还是很重要,因为现在模型趋势是越来越大。

    4.全上 SSD,NVMe 最好,主硬盘还是尽量 NVMe ( PCIe 也行),本地持久化存储空间不需要很大,可以另外组 nas 。

    5.CPU 选新款的,选 epyc 或者 Xeon W 。
    32 条回复    2020-06-05 17:50:56 +08:00
    aptx4689
        1
    aptx4689  
       2020-06-04 19:23:25 +08:00
    显然空间才是最重要的,人这么多,要放的数据必然多
    chenchangjv
        2
    chenchangjv  
       2020-06-04 19:33:10 +08:00
    建议硬盘再来一个 4TB 的,固态并不重要。
    服务器的 SAS 盘性能不错,系统不太需要放到固态里面。对 NLP 来说的话,内存也足够大了,应该也不用直接跟硬盘交互数据,所以硬盘性能不太重要,容量比较重要。/home 盘最好是 4T 的,2TB 的盘不是很禁用,因为大家都习惯把东西放在 /home 。我们二十多人的组,三台服务器加起来硬盘也有 20T 了。显卡的话看你们的人数了,不跑 BERT 的话,一般一个人独占一张卡还是有必要的。其他的没啥可挑的。如果你要跑 BERT 之类的话,可能就不太能多人共用了。
    xwander
        3
    xwander  
    OP
       2020-06-04 19:35:34 +08:00
    @aptx4689 #1 但 sata 的和 nvme 的速度真的差好大··· ···,不过计算型任务也的确不怎么受存储速度左右。
    Xbluer
        4
    Xbluer  
       2020-06-04 19:45:13 +08:00
    存储什么的可以上 NAS 啊
    chizuo
        5
    chizuo  
       2020-06-04 19:48:53 +08:00
    挺好的,如果还有预算的话建议内存再加一点。考虑到实验室多人使用,数据都要 load 到内存。
    FaceBug
        6
    FaceBug  
       2020-06-04 20:23:14 +08:00
    建议硬盘要 raid
    idclight
        7
    idclight  
       2020-06-04 20:41:41 +08:00
    SSD 换 6T sas 组 raid0,记得上 raid 卡。
    johnchshen
        8
    johnchshen  
       2020-06-04 20:48:08 +08:00 via Android   ❤️ 2
    cpu 是几年前的老款,很可能主板 CPU 都是洋垃圾回收。

    内存要不 4 个,要不 8 个,不然多通道效果可能差,且内存频率未标。

    硬盘没 raid1,raid5,速度慢且数据没安全。且简单标个企业级。奸商都直接给淘汰备品的。

    硬盘容量太小,没 ssd cache,图形类机器学习的话,空间必然不够。

    总结:换家有经验的有实力的供应商
    bnuliujing
        9
    bnuliujing  
       2020-06-04 21:57:40 +08:00
    我们半年前也配了一台类似的设备,Supermicro 的机器,cpu 是 Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz * 2,,内存 256G,硬盘是 500G SSD (RAID 0) + 8T ( RAID 5 )如果没记错的话。XEON E5-2680V4 有点老了,换新一点的 cpu 吧,另外硬盘考虑扩容+RAID 。
    Tink
        10
    Tink  
       2020-06-04 22:05:39 +08:00 via iPhone
    内存加两个
    redstar78kg
        11
    redstar78kg  
       2020-06-04 23:00:53 +08:00 via Android
    内存条用六个莫名其妙。
    zhaidoudou123
        12
    zhaidoudou123  
       2020-06-05 00:09:28 +08:00
    Cpu 是不是有点旧了,硬盘要组 raid 吧
    说起来这个配件其实指的是 Apple 的配件😂
    gainsurier
        13
    gainsurier  
       2020-06-05 00:18:47 +08:00 via iPhone
    好奇为啥不上 epyc
    longbye0
        14
    longbye0  
       2020-06-05 01:01:08 +08:00
    容天?
    ssd 很重要,对 cv 来说至少是的。
    alphatoad
        15
    alphatoad  
       2020-06-05 01:09:43 +08:00 via iPhone
    Nvme 占 pcie 通道啊,sata 便宜很多
    superlc
        16
    superlc  
       2020-06-05 01:23:05 +08:00 via iPhone
    NLP 不清楚,可能对 IO 要求低?我个人感觉 cv 方面 ssd 非常重要,严重影响速度。我们之前数据盘用 HDD,gpu 只有 70%左右的利用率,后来我插了块自己的 ssd 上去,四个 gpu 都是 99%利用率,爽到

    而且内存需要这么大吗?我们 64G 基本用不完,你要是 HDD+大内存的话可以搞 ramdisk ?

    我们去年 9 月买的 4 块 2080ti 才人民币大概 7.5w 左右,现在 10w 应该可以买更好的吧
    superlc
        17
    superlc  
       2020-06-05 01:37:47 +08:00 via iPhone
    @chizuo 应该是只有正在做 argumentation 的几个 batch 会临时在内存里,然后很快就挪到显存去了。如果显存只有 44G,内存应该不是瓶颈了,除非是做 ramdisk,把整个数据集放到内存里去
    abcdabcd987
        18
    abcdabcd987  
       2020-06-05 01:38:32 +08:00
    NLP 的话 2080Ti 显存是不是非常不够?
    fatelight
        19
    fatelight  
       2020-06-05 06:51:30 +08:00
    如果追求 io 速度,单个 nvme 是不够的,可以组个数据服务器,如果 io 需求很大的话,比如组一个 ceph 节点(二手便宜志强也行,主要吃内存),64G 内存 64T HDD,io 上基本可以满足了。但是不太了解 io 需求多大
    twl007
        20
    twl007  
       2020-06-05 07:31:10 +08:00 via iPhone
    电源功率不够 一块卡基本都得 300w 左右全速跑 需要升级到 3000w 的电源 而且 CPU 太老了 不推介

    另外你需要全上 SSD 能上 NVME 最好 拿 HDD 存训练集还行 跑训练就算了 需要存储的话可以单独采购一个做存储的机器

    现在这个配置基本不适合你跑机器学习 另外把内存加到 256G 比较好
    twl007
        21
    twl007  
       2020-06-05 07:34:00 +08:00 via iPhone
    我是按照你们以后升级 GPU 到 8 卡算的 那个电源现在可以用 但以后升级潜力堪忧就是了
    weiziyan
        22
    weiziyan  
       2020-06-05 07:45:11 +08:00
    为什么要买老至强?不需要多路就买 Xeon W,需要的话就买 Xeon Scalable
    nnqijiu
        23
    nnqijiu  
       2020-06-05 09:06:22 +08:00
    显卡才是最重要的,内存没必要用那么大
    Porphet
        24
    Porphet  
       2020-06-05 09:29:36 +08:00
    @abcdabcd987 现在 nlp 各种模型的趋势就是越大越好,11g 能用,但是对大模型就得想办法分到多块卡上了,对科研人员很不友好。所以推荐 RTX8000,😂
    madeye
        25
    madeye  
       2020-06-05 09:38:35 +08:00
    主要做 NLP 的话,显存肯定是不够的。

    以 BERT-large 为例,如果你想要本地 fine-tune 的话,12G 显存差不多对应 batch size 12,这个 batch size 太小因而很难收敛。
    NCZkevin
        26
    NCZkevin  
       2020-06-05 10:25:26 +08:00
    硬盘 NLP 的话没必要,分区的时候 home 多分点,否则以后会后悔的。我们实验室配置和这差不多,主要是显卡最好用显存大的,要不然跑 bert 有点吃力。
    sl0000
        27
    sl0000  
       2020-06-05 10:45:21 +08:00
    我个人用的 c621 准系统
    supermicro 7049gp-trt ¥:11000
    亚马逊特价买的,这个自带双钛金 2100w 冗余电源,8 * sata 硬盘 raid
    2 * intel gold 6244 es 2.8ghz 工程样品 ¥:1800 工程样品性价比比较高
    4TB wd blue ssd ¥:3500
    2 * 8T sata hgst 最强空气盘 ¥:2400
    4*32GB ecc 2993 ¥:3200
    sl0000
        28
    sl0000  
       2020-06-05 10:47:35 +08:00
    大船货 intel 200G 傲腾 m.2 ¥:2000 主板唯一的一个 m.2 接口插的这个作系统盘
    geniussoft
        29
    geniussoft  
       2020-06-05 10:52:49 +08:00
    听着不明型号的企业级固态,感觉就是骗钱的或者拆机翻新的。

    机械盘上 UltraStar HC520/530,预算不紧张可以富裕一点。
    另外个人认为主硬盘还是尽量 NVMe ( PCIe 也行)。

    处理器确实也有嫌疑。
    lsylsy2
        30
    lsylsy2  
       2020-06-05 10:57:06 +08:00
    有资质的对公供应商,洋垃圾回收什么的可能性还是不大
    但确实会用几年前的库存款式,在合理合法的范围内缩水
    chizuo
        31
    chizuo  
       2020-06-05 11:29:34 +08:00
    @superlc 嗷,对于数据集我一般是整个 load 到内存的,而不是到一个 batch 了,在从硬盘 read,这样会很慢
    fengdra
        32
    fengdra  
       2020-06-05 17:50:56 +08:00 via Android
    我们以前也是买了几台四卡机器,但是据我观察,大部分人每次都只用一张卡。所以我觉得不如把一台 HEDT+四卡换成两台消费级平台+双卡,这样划算很多
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2356 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 03:27 · PVG 11:27 · LAX 20:27 · JFK 23:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.