运营 - AWS Well-Architected Framework

运营

可观测性使您可以专注于有意义的数据,并了解工作负载的交互和输出。通过专注于基本见解并消除不必要的数据,您可以直截了当地来了解工作负载性能。这不仅对收集数据至关重要,对正确解读数据也至关重要。定义明确的基准,设置适当的警报阈值,并主动监控任何偏差。关键指标的改变,尤其是与其他数据关联时,可以精确定位特定的问题领域。借助可观测性,您可以更好地预见和应对潜在挑战,从而确保您的工作负载平稳运行并满足业务需求。

工作负载运营是否成功通过业务成果和客户结果的实现情况加以衡量。定义预期结果、确定成功的衡量方式,并确定将在这些计算中使用的指标,以确定工作负载和运营是否成功。运营状况包括工作负载的运行状况,以及为支持工作负载而执行的操作的运行状况和成败(例如,部署和事件响应)。设立改进、调查和介入的指标基线,收集和分析您的指标,然后验证您对运营成功的理解及其随时间变化的规律。使用收集的指标来确定您是否可以满足客户需求和业务需求,并确定需要改进的领域。

要实现卓越运营,您需要进行有效且高效的运营事件管理。这适用于计划内和计划外的运营事件。使用已确定的运行手册解决易于理解的事件,并使用行动手册来帮助调查和解决问题。您需要根据事件对业务和客户的影响排定其优先级。确保在出现事件警报时,会有指定负责人运行相关流程。事先定义解决事件所需的人员,并配备一个上报流程,以便根据紧急程度和影响在必要时引入额外人员。确定并引入有权决定行动方案的人员,这些行动方案将对之前未解决的事件响应产生业务影响。

通过为目标受众(例如,客户、业务人员、开发人员、运营人员)定制的控制面板和通知来发布工作负载的运行状态,以便他们可以采取相应措施、管理预期,并在恢复正常运营时收到通知。

在 AWS 中,您可以为收集的工作负载指标和 AWS 自带指标生成控制面板视图。您可以利用 CloudWatch 或第三方应用程序来汇总和呈现运维活动的业务、工作负载和运营级别视图。AWS 通过日志记录功能(包括 AWS X-Ray、CloudWatch、CloudTrail 和 VPC 流日志)提供工作负载洞察,从而协助识别工作负载问题,以支持根本原因分析和修复。

以下问题主要针对卓越运营的准备阶段。

OPS 8:  How do you utilize workload observability in your organization?
Ensure optimal workload health by leveraging observability. Utilize relevant metrics, logs, and traces to gain a comprehensive view of your workload's performance and address issues efficiently.
OPS 9:  How do you understand the health of your operations?
Define, capture, and analyze operations metrics to gain visibility to operations events so that you can take appropriate action.
OPS 10:  How do you manage workload and operations events?
Prepare and validate procedures for responding to events to minimize their disruption to your workload.

您收集的所有指标都应该与业务需求及其支持的结果相符。为充分理解的事件开发脚本式响应,并自动执行响应以识别事件。