lonelygo 最近的时间轴更新
lonelygo

lonelygo

V2EX 第 89418 号会员,加入于 2015-01-01 13:48:30 +08:00
今日活跃度排名 18608
淘宝购物车结算挂了?
全球工单系统  •  lonelygo  •  2020-01-05 15:08:40 PM
Shift AI models to real world products
机器学习  •  lonelygo  •  2019-08-05 10:08:06 AM
还差一个月消费者权益法到期,屏幕进灰了
MacBook Pro  •  lonelygo  •  2019-05-25 02:17:35 AM  •  最后回复来自 kingcos
2
V2er, 你的各种上网方式还正常么?
调查  •  lonelygo  •  2019-05-14 05:06:40 AM  •  最后回复来自 vsakuya
16
小米电视的工程师进来下
全球工单系统  •  lonelygo  •  2018-12-23 10:33:44 AM  •  最后回复来自 yuxiaohei
9
小米的登陆验证系统挂了?
全球工单系统  •  lonelygo  •  2018-08-21 20:01:52 PM
BOSS 直聘账户如何注销?
全球工单系统  •  lonelygo  •  2018-01-15 18:04:31 PM  •  最后回复来自 istark
1
40 岁依然可以奋力前行
  •  18   
    程序员  •  lonelygo  •  2017-10-31 18:52:06 PM  •  最后回复来自 xunyu
    105
    lonelygo 最近回复了
    78 天前
    回复了 Daotin 创建的主题 程序员 安卓 or 苹果?想听听 V 友们的看法
    @guozi1117 不知道,还在等大神出方案了。
    @guozi1117 我是手贱从桥接改成光猫拨号,看测速到底能不能跑满。现在好了,测速肯定能跑满了。。。。。
    哎,刚登上去,重启一下,登不上去了。。。。
    132 天前
    回复了 rabt 创建的主题 程序员 听说 ml 域名被收回了?你们的还能用吗
    我说昨天开始我的 openai 的 API 怎么抽风了😭,怎么也想不到是 ml 的反代跪了
    已🌟
    2022-11-29 10:20:58 +08:00
    回复了 terrysnake 创建的主题 Android 对新出的 VIVO X90 PRO+很心动,求打醒~
    @terrysnake 这段时间不是每天都有裁员的各种消息么,今天不知道明天啊。
    2022-11-25 10:17:34 +08:00
    回复了 terrysnake 创建的主题 Android 对新出的 VIVO X90 PRO+很心动,求打醒~
    你就不怕明天毕业么🔔


    这样打可以咩😁
    2022-11-22 10:36:49 +08:00
    回复了 lsww 创建的主题 NVIDIA AI 卡的工作原理
    @lsww 训练推理分开说。
    先说推理。目前大模型是有,但是不多,模型也没大到一定要上多机的。毕竟现在 20G 、40G 显存的 GPU 还是有的,模型再大,整个单机多卡足矣。而且这种推理侧的模型拆分,其实就是简单粗暴,把模型切成几片,保证每个分片的 weight 能塞到 AI 卡的 DDR 上去就行,然后多卡组个流水线完事。
    再说训练。这玩意就能说几天几夜了。
    不管单机多卡还是多机多卡,首先要知道的:
    并行计算相关的概念和知识;
    然后并行训练的三个名词:数据并行,模型并行,混合并行;
    多机的情况下,应为有跨机器通讯甚至是跨机柜通讯,靠网卡那是万万不行的,又要去了解:
    各种大规模并行算法的拓扑设计(其实顺手也就了解了物理服务器的拓扑设计),这个有不少经典 paper 可以看;
    高性能通讯,那就绕不开 RoCE 和 IB 了,又是知识点;
    这些搞明白了,下面就要琢磨下各框架怎么做分布式并行训练的:
    前人怎么改造 TF 和 PyTorch 的;
    怎么把 TF 、PyTorch 当后端,在上面怼个分布式的轮子(框架)来实现分布式的;
    OneFlow 怎么平地起高楼,从头撸一个分布式并行训练优先的框架,怎么保证不改代码单卡、多卡、多机多卡都能玩起来;

    基本概念都有了,那么就可以琢磨琢磨哪里有优化点可性能瓶颈了,可以造轮子了。
    2022-11-20 11:30:08 +08:00
    回复了 lsww 创建的主题 NVIDIA AI 卡的工作原理
    @lsww 题主不知入行多久,目前在做什么事情,直接点说,这个问题问的并不清楚:
    首先:AI 卡可以理解为异构的 AI 计算加速卡。
    如果是:`从操作系统角度理解其工作原理`,那么是不是在问:
    `异构计算加速平台的计算调度在 OS 层面做哪些工作?`,那对用户来说其实就是:PCIe ,DMA 这些数据搬运相关的事情,其他的比如中断这些,都是厂商软件栈的事情了。
    如果是:`AI 加速卡的工作原理`,那么是不是在问:
    `AI 加速卡如何做到高效的并行计算,来提高计算效率的?`,那就从怎么做 GEMM 加速,并行计算,这些看起,#2 @kakalala 提的 opencl 是理解并行计算的一个路径,还可以去看看 cuda 的文档,从硬件架构到 SIMT 到 Warp 都有图文并茂的解释。
    另外,从技术角度,AI 训练和 AI 推理,看起来差不多,但是从操作系统来看,两者之间的软件差异其实非常大:
    推理简单,把主机代码和设备代码确定了,workload 丢给 AI 卡,等回调,主机代码继续干后处理完事。
    训练复杂,单机多卡,多机多卡集群,涉及到分布式计算,通讯,模型并行 /数据并行 /混合并行,等一大堆东西。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3156 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 11:46 · PVG 19:46 · LAX 03:46 · JFK 06:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.