北京,内推,小米,AI 基建架构师/研发效能工程师。组内直推,hc5+

职位描述
岗位职责
1. Sandbox 安全与隔离架构
设计并实现多租户、高隔离性的 AI 代码执行沙箱，支持动态资源限制、网络策略及文件系统隔离。
优化沙箱启动速度与冷启动性能，满足在线推理、Agent 工具调用及离线批处理场景需求。
探索轻量级虚拟化技术（如 gVisor 、Firecracker 、Wasm 运行时）在 AI 场景下的最佳实践。
2. AI Observability 可观测体系建设
构建覆盖模型调用、Token 消耗、推理延迟、Prompt/Response 全链路的可观测体系。
设计 Trace 、Metrics 、Logging 三位一体的数据采集与存储方案，支持实时监控与事后回溯。
针对 Agent 场景，建立多步骤推理轨迹追踪、工具调用成功率统计及异常行为告警能力。
3. Agent 全生态架构设计与落地
主导 Agent 运行时架构设计，包括 Agent 生命周期管理、会话状态持久化、工具注册与发现机制。
设计并实现 Agent 编排引擎，支持单 Agent 、多 Agent 协作及人机协同模式。
构建 Agent 开发者工具链，包括调试 CLI 、可视化编排面板及自动化测试框架。
推动 Agent 间通信协议标准化，对接主流编排框架。
4. 架构演进与技术决策
制定技术路线图，平衡稳定性、成本与迭代效率。
输出架构设计文档，组织技术评审，指导中高级工程师落地。
跟踪业界前沿技术趋势，推动 AI 基础设施的持续演进。

职位要求
1 、本科及以上学历，计算机相关专业，7 年以上后端/基础架构开发经验，其中至少 2 年 AI 基础设施领域经验。
2 、精通至少两种编程语言（ Go / java / python / js ）。
3 、深入理解容器化技术（ Docker / containerd / kata ）及 Kubernetes 调度原理，有大规模 K8s 集群开发经验。
4 、熟悉分布式追踪系统（ OpenTelemetry / Jaeger / Zipkin ）及时序数据库（ Prometheus / VictoriaMetrics ）。
5 、有实际参与过沙箱安全机制（如 gVisor 、Firecracker 、Wasm 运行时）的设计或二次开发。

加分项
1 、有 Agent 框架（ LangChain 、openclaw 、Hermes ）源码阅读或二次开发经验。

组内直推，老板说是急招，hc 多多，发动全组推荐
北京，不能远程，大概 17 级往上，薪资范围上下限主要看简历情况和最终职级定级（这个自己聊）。

联系：bGl6aGFvMUB4aWFvbWkuY29t