云平台-SRE (机器人/AI 方向)
职位描述:
负责机器人/AI 云平台(自变量云)的稳定性、自动化与基础设施平台化工作,为高并发后端服务提供可靠、高效的技术运维支撑。
岗位职责:
1. CI/CD 流程构建:基于 Kubernetes 设计、构建并优化服务的代码发布与持续集成/部署流水线。
2. 平台稳定性保障:负责核心后端服务的可用性与可靠性,包括容量规划、性能调优与故障应急处理,保障 SLA 。
3. 基础设施管理:负责数据库、MQ 、Redis 等核心中间件的容量管理与平台化运维支持。
职位要求:
- 稳定保障:具备生产环境(高并发/分布式系统)稳定性保障经验,精通容量规划、性能调优与架构改进。
- 故障响应:能建立有效监控与报警体系,快速响应与处理线上故障,主导根因分析( RCA )并推动改进,提升服务稳定性。
- 自动化开发:熟练使用 Python/Go/Shell 等至少一门语言,具备运维自动化开发能力,优化 CI/CD 、配置管理等工作流。
- 变更管理:熟悉并实施渐进式发布、灰度发布等安全变更流程,确保发布安全与业务连续性。
- 平台化思维:有维护或构建消息队列、缓存、网关、分布式任务、存储等基础设施平台的经验,具备服务化、产品化意识。
我们是具身智能领域的云平台团队,现在需要招聘一名 sre 来负责云平台的稳定性,base 深圳,工作有挑战,待遇从优,肯定不会降薪!
感兴趣的同学欢迎发送简历给我:
flikecn#
163.com 我不是猎头,我是内部团队人员。