オペレーションのパースペクティブ: 正常性と可用性 - AWS クラウド導入フレームワークの概要

オペレーションのパースペクティブ: 正常性と可用性

オペレーションのパースペクティブでは、ビジネスのステークホルダーと合意したレベルでクラウドサービスを確実に提供することに重点を置いています。オペレーションを自動化および最適化することにより、ワークロードの信頼性を高めつつ、効果的にスケールできます。このパースペクティブは、次の図に示す 9 つの機能で構成されています。一般的なステークホルダーとしては、インフラストラクチャおよびオペレーションのリーダー、サイト信頼性エンジニア、IT サービスマネージャーなどが挙げられます。

AWS CAF のオペレーションのパースペクティブの機能を示す図。

AWS CAF のオペレーションのパースペクティブの機能

  • 可観測性 – インフラストラクチャとアプリケーションのデータから実用的なインサイトを得ます。クラウドのスピードと規模でオペレーションを行う場合、問題は発生時 (理想的にはカスタマーエクスペリエンスを損なう前) に発見できる必要があります。ワークロードの内部の状態と正常性を把握するために必要なテレメトリ (ログ、メトリクス、トレース) を作成します。アプリケーションのエンドポイントをモニタリングし、エンドユーザーへの影響を評価して、測定値がしきい値を超えたらアラートを生成します。

    合成モニタリングを使用して Canary (スケジュールに従って実行される設定可能なスクリプト) を作成して、エンドポイントと API をモニタリングします。トレースを実装して、リクエストがアプリケーションで処理される過程を追跡し、ボトルネックやパフォーマンスの問題を特定します。メトリクスとログを使用して、リソース、サーバー、データベース、ネットワークに関するインサイトを得ます。時系列データのリアルタイム分析を設定して、パフォーマンスへの影響の原因を把握します。データを 1 つのダッシュボードに集約し、ワークロードとそのパフォーマンスに関する重要な情報を一元的に把握できるようにします。

  • イベント管理 (AIOps) – イベントを検出し、その潜在的な影響を評価して、適切な対応を決定します。ノイズの除去、優先度の高いイベントの重視、差し迫ったリソースの枯渇の予測、アラートとインシデントの自動生成、考えられる原因と是正措置の特定が可能になることで、インシデントの発見と対応にかかる時間を短縮できます。イベントストアパターンを定義し、機械学習 (AIOps) を活用して、イベントの関連付け、異常の検出、因果関係の特定を自動化します。インシデント管理システムやプロセスなど、クラウドサービスやサードパーティー製ツールと統合できます。イベントへの対応を自動化し、手動のプロセスによって発生するエラーを減らすことで、迅速かつ一貫した対応を実現します。

  • インシデントおよび問題管理 – サービスのオペレーションを迅速に復旧し、ビジネスへの悪影響を最小限に抑えます。クラウドの導入により、サービスの問題やアプリケーションの状態の問題への対応プロセスを高度に自動化して、サービスのアップタイムを向上させることができます。より分散したオペレーションモデルに移行することにより、関連するチーム、ツール、プロセスの間のインタラクションが合理化され、重大なインシデントや複雑なインシデントの解決を迅速化できます。ランブックで、エスカレーションのトリガーやエスカレーションの手順などのエスカレーションの経路を定義します。

    インシデント対応の訓練を実施し、得られた知見をランブックに取り入れます。インシデントのパターンを識別して、問題を特定し、是正措置を決定します。チャットボットやコラボレーションツールを活用して、オペレーションチーム、ツール、ワークフローを結び付けます。責任を問わないインシデント後分析を活用して、インシデントに寄与する要因を特定し、対応するアクションプランを策定します。

  • 変更およびリリース管理 – 本番環境へのリスクを最小限に抑えつつ、ワークロードを導入および変更します。従来のリリース管理は、デプロイに時間がかかり、ロールバックが難しい複雑なプロセスでした。クラウドの導入により、CI/CD 技術を活用して、リリースとロールバックを迅速に管理できます。クラウドの俊敏性に合った自動承認ワークフローによる変更プロセスを確立します。デプロイ管理システムを使用して変更を追跡および実装します。小規模で可逆的な変更を頻繁に行うことで、変更の範囲を縮小します。ライフサイクルのすべての段階で変更をテストし、結果を検証して、デプロイの失敗によるリスクと影響を最小限に抑えます。結果が達成されない場合に以前の正常な既知の状態に自動的にロールバックすることで、復旧時間を最小限に抑えるとともに、手動プロセスによるエラーを減らします。

  • パフォーマンスおよびキャパシティ管理 – ワークロードのパフォーマンスをモニタリングし、キャパシティが今後の需要を確実に満たすようにします。クラウドのキャパシティは実質的に無制限ですが、サービスクォータキャパシティの予約、リソースの制約により、ワークロードの実際のキャパシティは制限されます。このようなキャパシティの制約を理解して、効果的に管理する必要があります。主要なステークホルダーを特定し、目的、範囲、目標、メトリクスについて合意します。パフォーマンスデータを収集して処理し、目標に対するパフォーマンスを定期的に確認および報告します。新しいテクノロジーを定期的に評価して、パフォーマンスを改善し、必要に応じて目標とメトリクスの変更を提案します。ワークロードの使用状況をモニタリングし、今後の比較のためにベースラインを作成して、必要に応じてキャパシティを拡大するためのしきい値を指定します。需要を長期にわたって分析し、キャパシティが季節的な傾向や変動するオペレーションの条件を満たすようにします。

  • 構成管理 – すべてのクラウドワークロード、その関係、構成の変更の長期にわたる正確かつ完全な記録を保持します。効果的に管理しないと、クラウドリソースのプロビジョニングの動的かつ仮想の性質により、構成ドリフトにつながる可能性があります。ビジネス属性をクラウドの使用状況にオーバーレイするタグ付けスキーマを定義して適用し、タグを活用して、技術、ビジネス、セキュリティの側面に従ってリソースを整理します。必須のタグを指定して、ポリシーでコンプライアンスを強制します。Infrastructure as Code (IaC) と構成管理ツールを活用して、リソースのプロビジョニングとライフサイクル管理を行います。構成のベースラインを定義し、バージョン管理を使用して管理します。

  • パッチ管理 – ソフトウェアの更新をシステマティックに配布して適用します。ソフトウェアの更新は、新たなセキュリティの脆弱性に対処し、バグを修正し、新しい機能を導入します。パッチ管理のシステマティックなアプローチにより、本番環境へのリスクを最小限に抑えつつ、最新の更新のメリットを得ることができます。指定したメンテナンス期間に重要な更新を適用し、クリティカルなセキュリティ更新はできるだけ早く適用します。次回の更新の詳細をユーザーに事前に通知することで、他の対策が可能な場合はパッチを延期できるようにします。本番環境にロールアウトする前に、マシンイメージを更新してパッチをテストします。パッチの適用中も引き続き可用性を確保するために、アベイラビリティーゾーン (AZ) や環境ごとに個別のメンテナンス期間を検討します。パッチの適用のコンプライアンスを定期的に確認し、違反しているチームに必要な更新を適用するように警告します。

  • 可用性および継続性管理 – ビジネスクリティカルな情報、アプリケーション、サービスの可用性を確保します。クラウド対応のバックアップソリューションを構築するには、既存の技術投資、復旧目標、使用可能なリソースを慎重に検討する必要があります。災害やセキュリティイベントの後にできるだけ早く復旧することで、システムの可用性とビジネスの継続性を維持できます。定めたスケジュールに従って、データとドキュメントをバックアップします。

    事業継続計画の一部として、災害対策計画を策定します。ワークロードごとにさまざまな災害シナリオの脅威、リスク、影響、コストを特定し、それに応じて目標復旧時間 (RTO) と目標復旧時点 (RPO) を指定します。マルチ AZ またはマルチリージョンアーキテクチャを活用して、選択した災害対策戦略を実施します。カオスエンジニアリングを活用して、管理された実験によって回復性とパフォーマンスを向上させることを検討します。計画を定期的に見直してテストし、得られた知見に基づいてアプローチを調整します。

  • アプリケーション管理 – アプリケーションの問題を一元的に調査および是正します。アプリケーションのデータを単一の管理コンソールに集約することで、異なる管理ツール間でコンテキストを切り替える必要がなくなり、オペレーションの監視が容易になるため、アプリケーションの問題の是正が迅速化されます。

    アプリケーションポートフォリオ管理や CMDB などの他の運用管理システムと統合し、アプリケーションのコンポーネントやリソースの検出を自動化して、アプリケーションのデータを単一の管理コンソールに統合します。ソフトウェアのコンポーネントやインフラストラクチャのリソースを含めて、開発、ステージング、本番などのさまざまな環境を正確に把握します。オペレーションの問題をより迅速かつ一貫した方法で是正するために、ランブックの自動化を検討します。