提示 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

提示

在涉及 IT 基础架构和 IT 服务的安全性、可用性、性能和可靠性时,警报是最重要的信息来源之一。它们会通知并告知您的 IT 团队持续存在的安全威胁、中断、性能问题或系统故障。

信息技术基础架构库 (ITIL),特别是 IT 服务管理 (ITSM) 实践,将自动警报设置为监控和事件管理和事件管理最佳实践的焦点。

事件警报是指监控工具生成警报,将IT环境中的变化、高风险操作或故障通知您的团队和自动化工具(对于可自动执行的项目)。IT 警报是抵御可能演变为重大事件的系统中断或变更的第一道防线。通过自动监控系统并生成中断和风险变更警报,IT 团队可以最大限度地减少停机时间并降低随之而来的高昂成本。

作为最佳实践,AWS架构完善的框架规定你使用监控生成基于警报的通知,以及主动监控和报警。使用CloudWatch或第三方监控服务来设置警报,指示指标何时超出预期界限。

警报管理的目的是建立高效、标准化的程序,通过记录、分类、行动定义和实施、关闭和事后审查活动来处理 IT 相关事件和事件。

章节