北京,内推,小米,AI 基建架构师/研发效能工程师。组内直推,hc5+

4 小时 34 分钟前
 cmqwan
职位描述
岗位职责
1. Sandbox 安全与隔离架构
设计并实现多租户、高隔离性的 AI 代码执行沙箱,支持动态资源限制、网络策略及文件系统隔离。
优化沙箱启动速度与冷启动性能,满足在线推理、Agent 工具调用及离线批处理场景需求。
探索轻量级虚拟化技术(如 gVisor 、Firecracker 、Wasm 运行时)在 AI 场景下的最佳实践。
2. AI Observability 可观测体系建设
构建覆盖模型调用、Token 消耗、推理延迟、Prompt/Response 全链路的可观测体系。
设计 Trace 、Metrics 、Logging 三位一体的数据采集与存储方案,支持实时监控与事后回溯。
针对 Agent 场景,建立多步骤推理轨迹追踪、工具调用成功率统计及异常行为告警能力。
3. Agent 全生态架构设计与落地
主导 Agent 运行时架构设计,包括 Agent 生命周期管理、会话状态持久化、工具注册与发现机制。
设计并实现 Agent 编排引擎,支持单 Agent 、多 Agent 协作及人机协同模式。
构建 Agent 开发者工具链,包括调试 CLI 、可视化编排面板及自动化测试框架。
推动 Agent 间通信协议标准化,对接主流编排框架。
4. 架构演进与技术决策
制定技术路线图,平衡稳定性、成本与迭代效率。
输出架构设计文档,组织技术评审,指导中高级工程师落地。
跟踪业界前沿技术趋势,推动 AI 基础设施的持续演进。

职位要求
1 、本科及以上学历,计算机相关专业,7 年以上后端/基础架构开发经验,其中至少 2 年 AI 基础设施领域经验。
2 、精通至少两种编程语言( Go / java / python / js )。
3 、深入理解容器化技术( Docker / containerd / kata )及 Kubernetes 调度原理,有大规模 K8s 集群开发经验。
4 、熟悉分布式追踪系统( OpenTelemetry / Jaeger / Zipkin )及时序数据库( Prometheus / VictoriaMetrics )。
5 、有实际参与过沙箱安全机制(如 gVisor 、Firecracker 、Wasm 运行时)的设计或二次开发。

加分项
1 、有 Agent 框架( LangChain 、openclaw 、Hermes )源码阅读或二次开发经验。

组内直推,老板说是急招,hc 多多,发动全组推荐
北京,不能远程,大概 17 级往上,薪资范围上下限主要看简历情况和最终职级定级(这个自己聊)。

联系:bGl6aGFvMUB4aWFvbWkuY29t
488 次点击
所在节点    酷工作
3 条回复
hxndg
4 小时 9 分钟前
sandbox 安全+kubernetes+两年 AI ,有点东西。
nanofei
4 小时 5 分钟前
小米好像 910 5 ?
blakezhaothinks
2 小时 31 分钟前
有个朋友在小米南京,说是工时 11.5 (含午休) 在组内垫底,被领导约谈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1223625

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX