一年一度的实习招聘启动啦,今年招收容器调度、AI Infra 相关的以下 2 个岗位,HC 目前充足,欢迎交流~
阿里云/ATH-AI Infra 工程师-容器方向
岗位职责
你将成为大模型技术落地的“算力内核设计者”。你将深入 Kubernetes 生态,参与构建支撑超大规模 AI 集群的容器化基础设施,通过对调度、存储、网络等核心组件的深度定制与优化,打破大模型训练与推理的工程瓶颈。你的代码将直接优化 Agent 的冷启动速度,提升 GPU 集群的吞吐量与资源利用率,为 AI 时代的算力底座注入极致性能。
具体的职责包括以下相关方向的一项或多项:
- AI 容器调度与编排优化:
- 深度优化 Kubernetes 调度器,实现面向 GPU 拓扑感知的算力分配,解决大规模分布式训练任务的资源碎裂问题。
- 设计并实现面向 AI Agent 的弹性调度策略,通过多级缓存、预加载等手段,实现分钟级到秒级的 Agent 快速拉起与自动伸缩。
- AI 高性能存储与网络底座:
- 针对 AI 大规模 checkpoint 与数据读取场景,优化容器存储挂载性能,通过存储卸载与并行化技术,解决分布式训练中的 I/O 阻塞问题。
- 优化容器网络性能(如 RDMA/RoCE 深度集成),通过内核态路径优化,降低推理请求的网络传输延迟。
- AI 工程平台架构设计与效率提升:
- 负责大型 AI 项目工程平台的架构设计与规划,通过构建标准化的云原生技术底座,确保复杂计算场景下的系统高可用性与可扩展性。
- 针对大规模 AI 任务执行过程中的痛点进行架构级优化,通过降低系统开销与资源冗余,显著提升系统运行效率。
- 定义面向 AI 场景的资源管控标准与作业管理规范,解决大规模并行任务下的资源争抢与隔离难题,确保高负载生产环境的稳定性。
- AI 基础设施极致加速:
- 研发面向 AI 推理与 Agent 运行的轻量化容器运行时,实现计算资源的极致弹性与高密部署。
- 构建 AI 场景下的监控与调优平台,深度剖析容器化环境下的性能瓶颈,实现从底层硬件到应用层的全链路性能优化。
- 负责容器镜像基础服务设计与研发,针对 AI 业务特征及需求,深度优化产品架构及技术实现,为 AI 业务大规模使用等场景提供高效极致的产品能力。
- 设计研发基于 AI 的智能应用弹性及资源弹性产品能力,推动对 AI 应用场景的端到端弹性伸缩优化。
- 设计研发自主智能运维 Agent ,通过自动故障感知根因定位与自愈决策闭环,提升运维效率。
岗位要求
- 毕业起止时间要求
2026-11-01 - 2027-10-31
- 基础条件:
- 计算机、软件工程等相关专业优先。
- 热衷于数据结构和算法,在 ACM/ICPC 等竞赛中成绩优异者优先;有 K8s 或容器相关开源社区贡献( Kubernetes/KubeFlow/Volcano/OpenKruise 等)或高性能存储/网络开发经验者加分。
- 专业能力:
- 系统工程与编程能力: 具备扎实的 Linux 系统底层基础(熟悉网络栈、文件系统、进程管理等),熟练掌握 Go 语言(核心)、Java 、Python 或 C++,具备复杂的分布式系统调试能力。
- 容器与编排生态: 对 Kubernetes 架构有深入理解,熟悉容器 Runtime ( Docker/containerd/CRI )原理,有 K8s 自定义 Controller/Scheduler 开发经验者优先。
-
AI 系统领域专业知识:
- 理解 AI 推理/训练的资源特征(如显存、带宽、通信模式)。
- 熟悉容器化环境下 AI /Agent 任务的架构及部署链路,了解如何通过容器技术优化模型加载、Checkpoint 保存、Memory 管理等环节。
- 对大规模分布式工程架构有一定理解,关注系统的高可用性、可观测性及研发效能的提升。
- 能力特质:
- 极致的性能追求:乐于挑战“毫秒级”的延迟瓶颈,具备良好的性能分析工具(如 ebpf, perf, flamegraph 等)使用与系统调优能力。
- 工程化思维:具备良好的系统抽象与架构设计能力,能够将复杂的 AI 场景痛点转化为高可用、高可靠的系统工程方案。
- 跨域协同:具备良好的技术视野,能够与模型算法工程师高效沟通,理解算力对业务的支撑逻辑,从底层视角拆解并解决 AI 工程挑战。
- 极客精神:对 AI 大模型技术充满热情,渴望在分布式系统与大规模算力平台的交汇处实现技术突破。
- 工作地点
北京/杭州
构建 AI Agent 下一代调度与计算引擎-阿里星
岗位职责
- 构建既能实现极致性能(百毫秒唤醒)又能做到极致成本效益(资源利用率提升 XX%)的 Agent 基础设施底座;
- 主导设计和实现融合了 Agent Sandbox 、容器与虚拟化的统一调度系统。
岗位要求
- 毕业起止时间要求:2026-11-01 - 2027-10-31
- 计算机科学或相关专业背景,具备深厚的操作系统、分布式系统理论基础;
- 精通 Go/C++/Rust 中至少一种,具备大型、复杂底层系统或分布式调度系统的设计与开发经验;
- 熟悉 Kubernetes 架构,特别是其调度器( kube-scheduler )和资源管理机制;有二次开发或重度使用经验者优先;
- 深入理解 Linux 内核机制(如 cgroups 、namespaces 、内存管理、内核调度)或虚拟化技术( KVM, QEMU );
- 对解决复杂系统中的性能瓶颈与稳定性问题充满热情,并具备体系化的方法论;
- 有强烈技术热情和好奇心,自驱力和学习力强;具备良好的分析与解决问题的能力、沟通以及团队合作能力;喜欢挑战性的技术研发工作,善于攻坚克难,有创新热情,积极乐观,坚韧抗压,结果导向,能够持续推动问题的解决和突破。
加分项 :
- 有分布式系统调度算法(如 Borg 、Omega 、Mesos )的设计或研究经验;
- 有 eBPF 、CRIU 、gVisor 、Kata Containers 等云原生前沿技术的实践经验;
- 有 Hypervisor ( KVM/Xen )开发或性能优化经验;
- 在 Linux Kernel 、Kubernetes 、Docker 等顶级开源社区有活跃贡献;
- 掌握 AI 基础知识,掌握基础提示词工程,会使用 Al 专业工具,集成 AI 到个人工作流;有 AI 相关开发工具应用研发经验者优先,持有阿里云 ACA/ACP/ACE 认证证书者优先。
工作地点:
北京/杭州
( ps. 阿里星岗位和常规岗位实习统一招聘,根据面试评级调整,大家不要担心因为从常规岗位的内推而无法参与 A star 评级)
投递方式
发送简历到邮箱,并等待内推邮件确认:
mailto: rougang.hrg@alibaba-inc.com
或者扫描以下内推二维码:
https://uploadfiles.nowcoder.com/compress/mw1000/images/20260406/702387425_1775483579918/95299E308A1FB7120110DBF6EB2BA29F
有疑问也欢迎私信交流~