lonelygo 最近的时间轴更新
lonelygo

lonelygo

V2EX 第 89418 号会员,加入于 2015-01-01 13:48:30 +08:00
今日活跃度排名 17653
淘宝购物车结算挂了?
全球工单系统  •  lonelygo  •  2020-01-05 15:08:40 PM
Shift AI models to real world products
机器学习  •  lonelygo  •  2019-08-05 10:08:06 AM
还差一个月消费者权益法到期,屏幕进灰了
MacBook Pro  •  lonelygo  •  2019-05-25 02:17:35 AM  •  最后回复来自 kingcos
2
V2er, 你的各种上网方式还正常么?
调查  •  lonelygo  •  2019-05-14 05:06:40 AM  •  最后回复来自 vsakuya
16
小米电视的工程师进来下
全球工单系统  •  lonelygo  •  2018-12-23 10:33:44 AM  •  最后回复来自 yuxiaohei
9
小米的登陆验证系统挂了?
全球工单系统  •  lonelygo  •  2018-08-21 20:01:52 PM
BOSS 直聘账户如何注销?
全球工单系统  •  lonelygo  •  2018-01-15 18:04:31 PM  •  最后回复来自 istark
1
40 岁依然可以奋力前行
  •  18   
    程序员  •  lonelygo  •  2017-10-31 18:52:06 PM  •  最后回复来自 xunyu
    105
    lonelygo 最近回复了
    8 天前
    回复了 terrysnake 创建的主题 Android 对新出的 VIVO X90 PRO+很心动,求打醒~
    @terrysnake 这段时间不是每天都有裁员的各种消息么,今天不知道明天啊。
    12 天前
    回复了 terrysnake 创建的主题 Android 对新出的 VIVO X90 PRO+很心动,求打醒~
    你就不怕明天毕业么🔔


    这样打可以咩😁
    15 天前
    回复了 lsww 创建的主题 NVIDIA AI 卡的工作原理
    @lsww 训练推理分开说。
    先说推理。目前大模型是有,但是不多,模型也没大到一定要上多机的。毕竟现在 20G 、40G 显存的 GPU 还是有的,模型再大,整个单机多卡足矣。而且这种推理侧的模型拆分,其实就是简单粗暴,把模型切成几片,保证每个分片的 weight 能塞到 AI 卡的 DDR 上去就行,然后多卡组个流水线完事。
    再说训练。这玩意就能说几天几夜了。
    不管单机多卡还是多机多卡,首先要知道的:
    并行计算相关的概念和知识;
    然后并行训练的三个名词:数据并行,模型并行,混合并行;
    多机的情况下,应为有跨机器通讯甚至是跨机柜通讯,靠网卡那是万万不行的,又要去了解:
    各种大规模并行算法的拓扑设计(其实顺手也就了解了物理服务器的拓扑设计),这个有不少经典 paper 可以看;
    高性能通讯,那就绕不开 RoCE 和 IB 了,又是知识点;
    这些搞明白了,下面就要琢磨下各框架怎么做分布式并行训练的:
    前人怎么改造 TF 和 PyTorch 的;
    怎么把 TF 、PyTorch 当后端,在上面怼个分布式的轮子(框架)来实现分布式的;
    OneFlow 怎么平地起高楼,从头撸一个分布式并行训练优先的框架,怎么保证不改代码单卡、多卡、多机多卡都能玩起来;

    基本概念都有了,那么就可以琢磨琢磨哪里有优化点可性能瓶颈了,可以造轮子了。
    17 天前
    回复了 lsww 创建的主题 NVIDIA AI 卡的工作原理
    @lsww 题主不知入行多久,目前在做什么事情,直接点说,这个问题问的并不清楚:
    首先:AI 卡可以理解为异构的 AI 计算加速卡。
    如果是:`从操作系统角度理解其工作原理`,那么是不是在问:
    `异构计算加速平台的计算调度在 OS 层面做哪些工作?`,那对用户来说其实就是:PCIe ,DMA 这些数据搬运相关的事情,其他的比如中断这些,都是厂商软件栈的事情了。
    如果是:`AI 加速卡的工作原理`,那么是不是在问:
    `AI 加速卡如何做到高效的并行计算,来提高计算效率的?`,那就从怎么做 GEMM 加速,并行计算,这些看起,#2 @kakalala 提的 opencl 是理解并行计算的一个路径,还可以去看看 cuda 的文档,从硬件架构到 SIMT 到 Warp 都有图文并茂的解释。
    另外,从技术角度,AI 训练和 AI 推理,看起来差不多,但是从操作系统来看,两者之间的软件差异其实非常大:
    推理简单,把主机代码和设备代码确定了,workload 丢给 AI 卡,等回调,主机代码继续干后处理完事。
    训练复杂,单机多卡,多机多卡集群,涉及到分布式计算,通讯,模型并行 /数据并行 /混合并行,等一大堆东西。
    228 天前
    回复了 wellwellwell 创建的主题 macOS 如何购买 DeepL API?
    @destinism 车还有位子么,怎么上?
    2021-12-06 10:47:00 +08:00
    回复了 zictos 创建的主题 Python Python 识别图片文字的效果是不是很差?
    这个锅和 python 有什么关系?
    为啥用 Win10 ?做成随便一个 Linux 多方便
    2021-04-19 14:00:37 +08:00
    回复了 xatest 创建的主题 分享创造 阿里味编程语言 pua-lang 正式发布!
    这这这。。。。。。么油菜,不去阿里可惜了
    2021-02-27 13:02:59 +08:00
    回复了 godbasin 创建的主题 程序员 自荐下自己的博客和写的一本开源书
    @godbasin 然鹅,并不是酱紫的。
    其实,人类并不能光靠吸氧维持生命,还需要“氧中和”,一般而言,吸猫是“氧中和”的最佳实践。
    2021-02-26 12:43:06 +08:00
    回复了 godbasin 创建的主题 程序员 自荐下自己的博客和写的一本开源书
    两只猫不错 @godbasin
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3475 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 11:04 · PVG 19:04 · LAX 03:04 · JFK 06:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.