OPS08-BP06 ワークロードの結果にリスクがある場合に警告する - 運用上の優秀性の柱

OPS08-BP06 ワークロードの結果にリスクがある場合に警告する

ワークロードの結果にリスクがある場合、必要に応じて適切な対応ができるよう、アラートを発生させます。

理想的には、警告の対象となるメトリクスのしきい値、または自動応答をトリガーするために使用できるイベントを前もって指定しておきます。

AWS では、 Amazon CloudWatch Synthetics を使用して 顧客と同じアクションを実行することで、エンドポイントと API をモニタリングするための Canary スクリプトを作成できます。生成されたテレメトリーと 得られたインサイトを使用して、 顧客が影響を受ける前に問題を特定できます。

また、 CloudWatch Logs Insights を使用して、 専用のクエリ言語によりログデータをインタラクティブに検索および分析することもできます。CloudWatch Logs Insights は、 AWS のサービスおよび JSON のカスタムログイベントからの ログのフィールドを自動的に検出します。ログボリュームとクエリの複雑さに応じてスケールし、数秒で回答が得られるため、インシデントの原因となる要因の検索に役立ちます。

一般的なアンチパターン:

  • ネットワーク接続がありません。誰も気づいていません。理由を特定しようとしたり、接続を復元するためのアクションを採ろうとしたりする人はいません。

  • パッチの適用後、永続的なインスタンスが使用できなくなり、ユーザーの操作を中断します。ユーザーがサポートケースをオープンしました。誰にも通知されていません。アクションを採ろうとしている人はいません。

このベストプラクティスを活用するメリット: ビジネス上の成果にリスクがあることを特定し、アクションが実行されるべきことをアラートすることで、インシデントの影響を防止または軽減する機会を得られます。

このベストプラクティスを活用しない場合のリスクレベル: ミディアム

実装のガイダンス

リソース

関連するドキュメント: