REL11-BP06 イベントが可用性に影響する場合に通知を送信する - 信頼性の柱

REL11-BP06 イベントが可用性に影響する場合に通知を送信する

重大なイベントが検出されると、イベントによって引き起こされた問題が自動的に解決された場合でも、通知が送信されます。

自動ヒーリング機能により、ワークロードの信頼性を高めることができます。ただし、対処する必要のある根本的な問題もあいまいになる可能性があります。根本原因の問題を解決できるように、自動ヒーリングによって対処されたものを含む問題のパターンを検出できるように、適切なモニタリングとイベントを実装します。Amazon CloudWatch アラームは、発生した障害に基づいてトリガーできます。また、実行された自動ヒーリングアクションに基づいてトリガーすることもできます。CloudWatch アラームは、Amazon SNS 統合を使用して、E メールを送信するか、サードパーティのインシデント追跡システムにインシデントを記録するように設定できます。

一般的なアンチパターン:

  • 誰もアクションを実行しないアラームを送信する。

  • オートヒーリングのオートメーションを実行したが、ヒーリングが必要とされたことは通知しない。

このベストプラクティスを確立するメリット: 復旧イベントの通知により、まれに発生する問題を無視することがなくなります。

このベストプラクティスが確立されていない場合のリスクレベル: ミディアム

実装のガイダンス

  • ビジネスの重要業績評価指標が低しきい値を超えたときに警告します。ビジネス KPI に低しきい値を設定すると、ワークロードが利用不可または機能していない場合にそれを認識できます。

  • ヒーリングオートメーションを呼び出すイベントについて警告します。SNS API を直接呼び出して、作成したオートメーションで通知を送信できます。

リソース

関連するドキュメント: