標準運用手順の管理 - AWS レジリエンスハブ

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

標準運用手順の管理

標準運用手順 (SOP) は、システム停止やアラームが発生した場合にアプリケーションを効率的に復旧するための規範的な一連の手順です。運用上の障害が発生した場合にタイムリーに復旧できるように、SOP を事前に準備、テスト、測定します。

アプリケーションコンポーネントに基づいて、 は準備すべき SOPs AWS Resilience Hub を推奨します。 AWS Resilience Hub は Systems Manager と連携して、SOPs の基礎として使用できる多数の SSM ドキュメントを提供することで、SOPs。

例えば、既存の SSM Automation ドキュメントに基づいてディスク容量を追加するための SOP を推奨 AWS Resilience Hub できます。この SSM ドキュメントを実行するには、正しいアクセス許可を持つ特定の IAM ロールが必要です。 は、ディスクが不足した場合に実行する SSM オートメーションドキュメントと、その SSM ドキュメントを実行するために必要な IAM ロールを示すメタデータをアプリケーションに AWS Resilience Hub 作成します。その後、このメタデータは SSM パラメータに保存されます。

SSM 自動化を設定することに加えて、 AWS FIS の実験を行ってテストすることもベストプラクティスです。したがって、 は SSM 自動化ドキュメントを呼び出す AWS FIS 実験 AWS Resilience Hub も提供します。このようにして、アプリケーションを事前にテストして、作成した SOP が意図したジョブを実行していることを確認することができます。

AWS Resilience Hub は、アプリケーションコードベースに追加できる AWS CloudFormation テンプレートの形式でレコメンデーションを提供します。このテンプレートは以下を提供します。

  • SOP の実行に必要な権限を持つ IAM ロール。

  • SOP のテストに使用できる AWS FIS 実験。

  • どの SSM ドキュメントと IAM ロールを SOP として実行するか、どのリソースで実行するかを示すアプリケーションメタデータを含む SSM パラメータ。例: $(DocumentName) for SOP $(HandleCrisisA) on $(ResourceA)

SOP の作成には試行錯誤が必要な場合があります。アプリケーションに対して障害耐性評価を実行し、 AWS Resilience Hub レコメンデーションから AWS CloudFormation テンプレートを生成するのが良いスタートです。 AWS CloudFormation テンプレートを使用して AWS CloudFormation スタックを生成し、SOP で SSM パラメータとそのデフォルト値を使用します。SOP を実行して、どのような改良が必要かを確認してください。

アプリケーションごとに要件が異なるため、 AWS Resilience Hub によって提供されている SSM ドキュメントのデフォルトリストではすべてのニーズを満たすことはできません。ただし、デフォルトの SSM ドキュメントをコピーして、それを基にしてアプリケーションに合わせた独自のカスタムドキュメントを作成することはできます。独自のまったく新しい SSM ドキュメントを作成することもできます。デフォルトを変更する代わりに独自の SSM ドキュメントを作成する場合は、SOP の実行時に正しい SSM ドキュメントが呼び出されるように、それらを SSM パラメータに関連付ける必要があります。

必要な SSM ドキュメントを作成し、必要に応じてパラメータとドキュメントの関連付けを更新して SOP を完成させたら、SSM ドキュメントをコードベースに直接追加し、後で変更やカスタマイズを行います。これにより、アプリケーションをデプロイするたびに、SOP も最も多くデプロイされます up-to-date 。