付録 1 — MTTD と MTTR の重要なメトリクス - 可用性およびその他:AWS の分散システムの回復力の理解と向上

付録 1 — MTTD と MTTR の重要なメトリクス

以下は、イベント中の MTTD と MTTR の削減に役立つインストルメンテーションと可観測性の標準化のフレームワークです。

カスタマーエクスペリエンスメトリクス。これらのメトリクスは、サービスが応答性が高く、カスタマーのリクエストに対応できることを反映しています。例えば、コントロールプレーンのレイテンシーです。これらのメトリクスでは、エラー率、可用性、レイテンシー、ボリューム、スロットルレートを測定します。

影響評価メトリクス。これらのメトリクスは、イベント発生時の影響範囲についての分析情報を提供します。例えば、データプレーンイベントの影響を受けたカスタマーの数や割合などです。影響を受けたものの数または割合を測定します。

運用健全性メトリクス これらのメトリクスは、サービスが応答性が高く、カスタマーのリクエストに応えられることを反映していますが、共通のインフラストラクチャサブシステムとリソースに焦点を当てています。例えば、EC2 フリートの CPU 使用率の CPU 使用率の割合です。これらのメトリクスでは、使用率、容量、スループット、エラー率、可用性、レイテンシーを測定する必要があります。