附录 C-事件分类 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

附录 C-事件分类

在分类框架内跟踪事件至关重要,因为该框架可以全面了解影响系统的故障类型和问题。如果您的组织仅跟踪单个类别中的事件,例如基础设施故障,则您可能会错过其他领域的见解和改进机会。通过跟踪多个类别的事件,您可以更好地了解要进行的各种混沌实验。这种视角有助于识别潜在的盲点,并支持扩大工程范围,从而形成更具弹性和容错性的系统。

建议的事件分类框架旨在帮助根据事件的性质和潜在影响对事件进行分类。它使用高级分类,将事件分为八个主要类别:

  • 部署问题

    • 部署失败

    • 回滚失败

    • 部署期间的配置问题

  • 软件错误和回归

    • 功能错误

    • 集成问题

    • 性能问题

    • 配额问题

    • 弹性机制问题(重试、超时)

    • 数据完整性问题

  • 测试问题

    • 缺少测试

    • 无效的测试

    • 片状测试

  • 基础架构故障

    • 硬件故障(服务器、网络设备、存储)

    • 缩放问题

    • 依赖失败(第三方服务, APIs)

    • 网络连接问题

  • 操作问题

    • 人为错误(配置错误、意外更改)

    • 监控故障并发出警报

    • 容量规划问题

    • Backup 和还原失败

  • 安全事件

    • 未经授权的访问尝试

    • 数据泄露

    • 拒绝服务 (DoS) 攻击

  • 第三方服务中断

    • 云提供商中断

    • DNS 故障

    • 外部 API 和服务中断

  • 环境因素

    • 自然灾害(地震、火灾、洪水、停电)

    • 与天气有关的问题

这是一个尚无定论的示例分类框架,您可以根据自己的特定需求和组织进行定制。我们建议您随着系统的发展或新类型的事件的出现,定期审查和更新分类框架。