OPS10-BP07 イベントへの対応を自動化する - 運用上の優秀性の柱

OPS10-BP07 イベントへの対応を自動化する

イベントへの対応を自動化することは、迅速で一貫性があり、ミスのない運用処理を実現するために不可欠です。プロセスを合理化し、ツールを使用してイベントを自動的に管理および対応することで、手作業による介入を極力なくし、運用効率を高めます。

期待される成果:

  • 自動化を通じて、ヒューマンエラーを抑制し、解決所要時間を短縮できる。

  • 一貫性があり信頼できる運用上のイベント処理。

  • 運用効率とシステムの信頼性が向上する。

一般的なアンチパターン:

  • 手作業によるイベント処理は、遅延やミスにつながりやすい。

  • 反復的でありながら重要なタスクに対し、自動化が見過ごされる。

  • 繰り返しのタスクを手作業で行うと、アラート疲労が起きやすく、重大な問題を見逃しかねない。

このベストプラクティスを活用するメリット:

  • イベントへの対応を迅速化し、システムのダウンタイムを短縮する。

  • 自動化された一貫したイベント処理による、信頼性の高い運用。

このベストプラクティスを活用しない場合のリスクレベル:

実装のガイダンス

自動化を組み込んで運用ワークフローを効率化し、手作業による介入を極力抑えます。

実装手順

  1. 自動化の機会を見極める: 問題の修正、チケットの強化、容量管理、スケーリング、デプロイ、テストなど、自動化の余地がある反復的なタスクを判断します。

  2. 自動化のプロンプトを特定する:

  3. イベント駆動型の自動化を実装する:

    • AWS Systems Manager オートメーションランブックを使用して、メンテナンス、デプロイ、修正のタスクを簡素化します。

    • Incident Manager でインシデントを作成 して、関係する AWS リソースの詳細を自動的に収集し、インシデントに追加します。

    • AWS での クォータモニタを使用してクォータをプロアクティブにモニタリングします。

    • 可用性とパフォーマンスを維持するため、 AWS Auto Scaling で容量を自動的に調節します。

    • 開発パイプラインを Amazon CodeCatalystを使用して自動化します。

    • エンドポイントと API のスモークテストまたは継続的な監視に 合成モニタリングを使用します。

  4. 自動化によるリスク軽減を実行する:

実装計画に必要な工数レベル:

リソース

関連するベストプラクティス:

関連するドキュメント:

関連動画:

関連する例: