OPS10-BP01 イベント、インシデント、問題管理のプロセスを使用する - 運用上の優秀性の柱

OPS10-BP01 イベント、インシデント、問題管理のプロセスを使用する

イベント、インシデント、問題を効率的に管理する能力は、ワークロードの正常性とパフォーマンスを維持するために不可欠です。これらの要素の違いを認識し、理解することが、対応と解決の効果的な戦略を策定するうえで極めて重要です。各側面に対して明確に定義されたプロセスを確立し、それに従うことで、チームは運用面で生じる課題に迅速かつ効果的に対処できます。

期待される成果: 組織は、適切に文書化され、一元的に保存されたプロセスを介して、運用上のイベント、インシデント、問題を効果的に管理します。これらのプロセスは随時見直され、変更を反映させることで、処理を効率化し、サービスの信頼性とワークロードのパフォーマンスを高く維持します。

一般的なアンチパターン:

  • イベントに先回りして対応するのではなく、事後対応になる。

  • さまざまなタイプのイベントやインシデントに対するアプローチに一貫性がない。

  • 組織が、再発防止のためのインシデントの分析や学習を行わない。

このベストプラクティスを活用するメリット:

  • 対応プロセスが合理化され、標準化されます。

  • インシデントがサービスや顧客に与える影響を軽減します。

  • 問題解決を早めます。

  • 運用プロセスが継続的に改善されます。

このベストプラクティスを活用しない場合のリスクレベル:

実装のガイダンス

このベストプラクティスを実装すると、ワークロードイベントを追跡することになります。インシデントと問題を扱うためのプロセスができます。プロセスは文書化され、共有され、頻繁に更新されます。問題が特定され、優先順位が付けられ、修正されます。

イベント、インシデント、問題の理解

  • イベント: ベント とは、ある行動、出来事、または状態の変化を観察したものを指します。イベントは計画的な場合も計画外の場合もあり、ワークロードの内部または外部から発生する可能性があります。

  • インシデント: インシデント とは、予定外の中断やサービス品質の低下など、対応が必要なイベントのことです。これらは、ワークロードを通常運用に復旧するために早急な対応を迫られる障害です。

  • 問題: 問題 は、1 つ以上のインシデントの根本原因です。問題を特定して解決するには、再発防止のため、インシデントを掘り下げて調査することなどが必要です。

実装手順

イベント

  1. イベントを監視する:

  2. プロセスを作成する:

    • どのイベントが重要でモニタリングが必要かを評価するプロセスを考案します。正常なアクティビティと異常なアクティビティのしきい値やパラメータの設定などを行います。

    • イベントをインシデントにエスカレートする基準を決定します。これは、重大度やユーザーへの影響、想定される動作から逸脱しているかどうかなどに基づいて行います。

    • イベントの監視と対応のプロセスを定期的に見直します。例えば、過去のインシデントの分析、しきい値の調整、警告メカニズムの改善などを行います。

インシデント

  1. インシデントに対応する:

    • オブザーバビリティツールから得たインサイトを活用して、インシデントを迅速に特定し、対応します。

    • AWS Systems Manager OpsCenter を実装して、運用上の問題とインシデントを集約して整理し、優先順位を付けます。

    • より詳細な分析とトラブルシューティングを行うため、 Amazon CloudWatchAWS X-Ray などのサービスを利用します。

    • インシデント管理の強化のため、 AWS Managed Services (AMS) の積極的、予防的、検出的な機能を利用することを検討します。AMS は、モニタリング、インシデントの検出と対応、セキュリティ管理などのサービスで運用サポートを拡充します。

    • エンタープライズサポートのお客様は AWS Incident Detection and Response を利用できます。本番ワークロードを継続的かつ予防的に監視し、インシデント管理を担うサービスです。

  2. インシデント管理プロセスを作成する:

    • 役割、コミュニケーションプロトコル、解決手順などを明確に定義した、構造化されたインシデント管理プロセスを確立します。

    • 対応と調整を効率化するため、 AWS Chatbot などのツールをインシデント管理に統合します。

    • 重大度別にインシデントを分類し、各カテゴリの インシデント対応計画 をあらかじめ定義しておきます。

  3. 学習して改善する:

    • 根本原因と解決効果を理解するため、 インシデント後の分析 を実施します。

    • 見直しと変化する慣行に基づいて、対応計画を継続的に更新および改善します。

    • 学んだ教訓を文書化し、チーム全体で共有することで、業務のレジリエンスを強化します。

    • エンタープライズサポートのお客様は インシデント管理ワークショップ をテクニカルアカウントマネージャーからリクエストできます。このガイド付きワークショップでは、既存のインシデント対応計画をテストし、改善すべき点を明らかにすることができます。

問題

  1. 問題を特定する:

    • 過去のインシデントからのデータを活用して、システム上の深層の問題を示唆している可能性のある、反復的なパターンを洗い出します。

    • ツール ( AWS CloudTrailAmazon CloudWatch など) を利用して傾向を分析し、根本的な問題を明らかにします。

    • 運用、開発、ビジネスユニットなど、部門横断的なチームを組織し、多様な視点から根本原因を探ります。

  2. 問題管理プロセスを作成する:

    • 構造化された問題管理プロセスを開発し、その場しのぎの修正ではなく長期的な解決策に焦点を当てます。

    • 根本原因分析 (RCA) 手法を取り入れて、インシデントの根本原因を調査し、理解します。

    • 検出結果に基づいて運用ポリシー、手順、インフラストラクチャを更新し、再発を防ぎます。

  3. 継続的に改善する:

    • 絶え間ない学習と改善の文化を育み、潜在的な問題を先回りして特定し、対処することをチームに奨励します。

    • ビジネスとテクノロジーにおける環境の変化に応じて、問題管理のプロセスとツールを定期的に見直し、改訂します。

    • 組織全体でインサイトとベストプラクティスを共有して、よりレジリエントで効率的な運用環境を構築します。

  4. AWS Support と連携する:

    • AWS のサポートリソース ( AWS Trusted Advisor など) を活用し、先を見据えたガイダンスと最適化の推奨事項を確認します。

    • エンタープライズサポートのお客様は、重大イベントの実施中のサポートを行う AWS Countdown など、専門的なプログラムを利用できます。

実装計画に必要な工数レベル: 中程度

リソース

関連するベストプラクティス:

関連するドキュメント:

関連動画:

関連する例:

関連サービス: