PERF05-BP05 自動化でパフォーマンス関連の問題をプロアクティブに修正する
主要業績評価指標 (KPI) をモニタリングおよびアラート発行システムと組み合わせて使用し、パフォーマンス関連の問題に積極的に対処します。
一般的なアンチパターン:
-
運用スタッフのみに対して、ワークロードに運用上の変更を加えることを許可する。
-
プロアクティブな修復を行うことなく、すべてのアラームが運用チームに届くようにしている。
このベストプラクティスを活用するメリット: アラームアクションをプロアクティブに修正することで、サポートスタッフは自動的に実行できない項目に集中できます。これにより、運用スタッフがすべてのアラームの対応に忙殺されることがなくなり、代わりに重要なアラームのみに集中できます。
このベストプラクティスを活用しない場合のリスクレベル: 低
実装のガイダンス
アラームを使用して、可能な場合には自動的に問題を修正するアクションを呼び出します。自動化された対応が不可能な場合は、対応できるシステムにアラームをエスカレートします。例えば、期待される主要業績評価指標 (KPI) 値を予測し、それらが特定のしきい値を超えた場合にアラームを発行できるシステム、または KPI が期待される値の範囲外である場合に、デプロイメントを自動的に停止、またはロールバックできるツールなどが考えられます。
実行中のワークロードのパフォーマンスを目で見て確認できるようにするプロセスを実装します。モニタリングダッシュボードを構築し、パフォーマンス期待のベースラインとなる基準を確立して、ワークロードが最適に機能しているかどうかを判断します。
実装手順
-
自動的に修正できるパフォーマンスの問題を特定して把握します。Amazon CloudWatch やAmazon CloudWatch などの AWS モニタリングソリューションを使用して、問題の根本原因をよりよく理解します。
-
問題の自動修正に使用できるステップバイステップの修正計画とプロセスを作成します。
-
修正プロセスを自動的に開始するようにトリガーを設定します。例えば、CPU 使用率が特定のしきい値に達したときにインスタンスを自動的に再起動するトリガーを定義できます。
-
AWS のサービスとテクノロジーを使用して修正プロセスを自動化します。例えば、 AWS Systems Manager Automation を使用すると、 安全かつスケーラブルに修正プロセスを自動化できます。
-
自動修正プロセスを本番前環境でテストします。
-
テスト後、修正プロセスを本番環境に実装し、継続的にモニタリングして改善が必要な領域を特定します。
リソース
関連するドキュメント:
関連動画:
関連する例: