“混沌工程/混沌工程学”:一种在(通常是生产环境或接近生产的环境中)主动、可控地注入故障与扰动的实践方法,通过实验来验证分布式系统在压力、异常和组件失效时是否仍能保持可接受的可靠性与韧性,从而提升系统稳定性与团队应急能力。(也常译作“故障演练/故障注入实验”。)
/ˈkeɪ.aʊs ˌɛn.dʒɪˈnɪr.ɪŋ/
We use chaos engineering to test how our service behaves when a server goes down.
我们用混沌工程来测试当一台服务器宕机时服务会如何表现。
By running chaos engineering experiments in production, the team discovered hidden dependencies and improved the system’s resilience during peak traffic.
通过在生产环境运行混沌工程实验,团队发现了隐藏依赖,并在流量高峰期提升了系统韧性。
“Chaos”原意是“混乱、无序”,在这里强调人为制造不可预期的故障情境;“Engineering”表示将这种做法系统化、工程化(设定假设—设计实验—监测指标—总结改进)。该术语在云计算与微服务兴起后广泛流行,尤其与Netflix早期实践(如“Chaos Monkey”)密切相关。