矿卡用于生产力怎么样(深度学习)

2022-10-05 12:09:23 +08:00
 zyzzustc98
实验室有资源但是要排队,打算跑小模型用用,有意向 3060 12g
6453 次点击
所在节点    硬件
42 条回复
nightwitch
2022-10-05 12:12:42 +08:00
能用多久看人品
arch9999
2022-10-05 12:15:06 +08:00
我这 AI 怎么跟个傻子一样啊?

矿老板你真该死啊!
optional
2022-10-05 12:51:43 +08:00
直接租算力。
Tink
2022-10-05 13:16:08 +08:00
跟打游戏一个道理
s4nd
2022-10-05 15:17:18 +08:00
质量靠谱的话我觉得没问题,挖矿的过程不也是计算的过程吗,实验室的资源要排队用的话没准和矿卡被操的程度差不多了
mineralsalt
2022-10-05 15:41:31 +08:00
刚买了几张矿卡组黑苹果, 价格很香, 坏了也认了, 不心疼
RatioPattern
2022-10-05 18:32:10 +08:00
从不同矿场拿到的不同品牌不同型号不同出厂日期批次,不同的散热条件,所挖币种,供电电源的电压电流稳定性与纹波,矿场自己调试的挖矿 bios 超频幅度,甚至装在矿机机箱两边的与装在中间的积热带来的元件老化速度不一都是变量,简单用“矿卡”二字难以概括所有矿卡,没有可比性。同样的价格,你可能拿到堪比崭新出场刚挖就暴跌停机的新卡用 10 年都没问题,也可能拿到第一批无锁地下室偷电闷炉里面烤出来的火卡,插上用了几天还是好的,后来突然哪天天气不好温度高一点低一点家里冰箱空调开机带来了一点电压抖动就炸了。
RatioPattern
2022-10-05 18:34:57 +08:00
至于不同的价格,还有有人翻新,翻新是水洗还是超声波还是工业清洗剂或者卖家自己小毛刷
还有,出厂的 30 系“全新”也可能是翻新。
全都是变量,不是着急用不如等 40 系,着急用,至少收个能个人送保的品牌,外观看起来正常点(免得厂家收了检查说你挖矿拒保)
当然你自己会维修的话,怎么便宜怎么来,就是不知道工时费谁给结算
RatioPattern
2022-10-05 18:39:55 +08:00
然后看到你说深度学习用,执意要收的话有个小建议,深度学习用不要收挖 ETH 的,ETH 消耗显存很厉害,显存出错你训练模型就会要么结果不对耗时过长( GDDR6 还能自己纠正的情况下),要么无法纠正直接中断训练从头开始
agegcn
2022-10-05 20:06:41 +08:00
@RatioPattern 你讲了这么多,最后显得很业余了。。。矿卡还有不挖 eth 的吗?难道是 1060 3g ?
agegcn
2022-10-05 20:10:23 +08:00
我自己就是又挖矿又做深度学习的。楼上不知道听了哪里的营销号扯淡,忽悠小白专业名词张口就来,还 tm 电压抖动,消耗显存。矿卡过压力测试就没问题。
v2eb
2022-10-05 20:15:10 +08:00
可能用自来水冲过🐒
RatioPattern
2022-10-05 20:58:56 +08:00
楼上自己挖矿卖卡的,各位自行判断。
haifuyun
2022-10-05 22:37:39 +08:00
要买选七彩虹和 asus ,这两个售后好,没拆过的,如果坏了估计给你换新的
agegcn
2022-10-05 22:59:17 +08:00
@RatioPattern 我什么时候卖矿卡了?我自己挖了之后拿来深度学习,没卖过,可以吗?什么依据都拿不出,就只能怀疑别人动机。你说的电压抖动,显存消耗,有什么测试数据吗?张口就来谁不会啊
agegcn
2022-10-05 23:08:12 +08:00
@RatioPattern 如果你没有挖过矿,也没有买过矿卡做深度学习,只是听营销号扯淡,或者自己脑海里 yy ,这种回答到底可不可靠,各位自行判断
RatioPattern
2022-10-05 23:28:39 +08:00
不跟垃圾人浪费时间,我的确不是专业出身,但我折腾矿卡有几年了也有部分此行业从业经验,简单说明下:
1.他自己是个例不具备普遍性,且可能直接利益相关,故直接使用公众号扯淡之类的词汇攻击正常讨论。就算不懂技术,单从厂家 RMA 均采取拒绝矿卡保修策略也可以看出,矿卡维修成本高难度大,间接说明老化 /损坏程度较日常用卡更甚,要知道这是在早期矿主往往直接工厂加价批量拿货且与厂家关系明显优于消费者个人的前提下。

2.电阻、电容和电感,温度变化对其工作特性和寿命的影响是电子专业就业必修课,举例当温度升高时,二极管的正向特性左移,反向特性下移。一般地,在室温附近温度每升高 1℃二极管正向压降会减少 2 到 2.5mV ;而温度每升高 10℃,反向电流增大一倍。
又比如目前电子产品内常见的固态电容在摄氏 105 度高温下,固态电容和液态电容的寿命同样为 2000 小时(83 天),但温度越低固态电容寿命将会比液态电容有更长的寿命,摄氏 95 度、85 度、75 度、65 度下其寿命将会是 1.5 倍、2.5 倍、4 倍和 6.25 倍。在 65 度温度情况下,固态电容的寿命约为 20 万小时(超过 22 年)。
不要对矿场的散热和机器运行环境有过多期待,即使矿场温控无尘环境有所改善,也往往是为了更好的超频 GPU 显存来压榨出更高的算力,这最终还是会反应到矿卡的老化加速上。矿场第一成本电费,第二成本矿机。大矿厂规模更大,更有动力去极致优化在机房散热电能消耗与坏卡下线故障率上找一个能接受的平衡点。

3.现代 GPU 有类似固态坏块控制的机制,当个别计算单元不稳定或者连续出错时可以驱动上降频至稳定运行频率 /功耗做软屏蔽,但是你相信我这个时候你如果在用卡你是能感觉出来的,哪怕看帧数是对的。此外光刻同一块 die 上出产的晶片量产存在出厂差异是公认的,在出场测试后会进行软硬屏蔽不当的 CU(shader)组,这些 shader 组被屏蔽的原因多种多样,但主要为片上短路 /预设频率下不能稳定运行
4.搜索引擎能搜到的常规压力测试无法覆盖所有情况(包括常见的 GPUZ 甜甜圈,3dmark ,hwinfo64 看错误率,甚至包括厂家出厂测试软件如 nvida 的 mats 与 AMD 的 tserver,鲁大师不具备太高参考性),至今你仍能够见到工业渲染需求,大家拿来机器仍然是 3dmark 跑完分之后找个极端复杂的场景或者模型挂在那面连续 24 小时以上然后检查渲染结果是否与预期完全一致来确认稳定性.
大部分普通用户拿到卡之后并不会拆开看里面更换了什么比如供电显存,也不会挨个检查每路供电模块变化预估老化程度,也不会连续 24 小时满载跑专业渲染工具并且比对渲染结果来确认稳定性,能够自己换下硅脂散热完好无损装回去的已经算较了解显卡的用户。相信你接触过足够多的矿卡之后就明白甜甜圈 30 分钟一小时并不能反映问题,3dmark 也是一样。矿卡明着的问题是宝贝,暗着的问题是计算错误。也许游戏用户还好,一帧两帧看不出来,但工业用最终的渲染结果比对更能反应问题,既测试了 GPU 计算单元的准确性又测试了显存。

到此为止,出口成脏不值得交流
RatioPattern
2022-10-05 23:30:57 +08:00
矿卡明着的问题是突然暴毙,打错了。
agegcn
2022-10-05 23:44:50 +08:00
终于有点内容了,之前质疑你就是只说结论,不说论据,而且我质疑你之后,只怀疑我动机,完全回避关键点,所以才喷你是营销号来的。不过你说的这些都是正确的废话啊,套在任何电子产品上都通用。任何电子产品,都是用得越多,剩余寿命就越短,越容易坏。任何压力测试,都不可能覆盖所有情况。这种道理需要从电阻电容开始解释吗?我觉得只是忽悠小白的说辞而已,对提问者一点帮助也没有。我给的建议是实际操作建议,矿卡可以做深度学习,前提是半年内生产的卡,并且可以通过压力测试。
wowodavid
2022-10-06 00:02:01 +08:00
别想了,最大的问题:开不了发票

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/884713

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX