REL13-BP01 ダウンタイムやデータ消失に関する復旧目標を定義する - AWS Well-Architected Framework

REL13-BP01 ダウンタイムやデータ消失に関する復旧目標を定義する

ワークロードには、目標復旧時間 (RTO) と目標復旧時点 (RTO) が定義されます。

目標復旧時間 (RTO) RTO は、サービスの中断からサービスの復元までの最大許容遅延です。これにより、サービスが利用できないときに許容可能と見なされる時間枠が決まります。

目標復旧時点 (RPO)  RPO は、最後のデータ復旧ポイントからの最大許容時間です。これにより、最後の復旧ポイントからサービスの中断までの間に許容可能と見なされるデータ損失が決まります。

RTO 値と RPO 値は、ワークロードに適したディザスタリカバリ (DR) 戦略を選択する際の重要な考慮事項です。これらの目標は企業によって決定され、技術チームによって DR 戦略の選択と実装のために使用されます。

期待される成果: 

すべてのワークロードに、ビジネスへの影響に基づいて定義された RTO と RPO が割り当てられます。ワークロードが事前に定義された改装に割り当てられ、該当する RTO および RPO とともに、サービスの可用性と許容可能なデータ損失を定義します。そのような階層化ができない場合には、後で階層を作成する目的で、ワークロードごとに別注を割り当てることもできます。RTO と RPO は、ワークロードのディザスタリカバリ戦略実装を選択する際の主要な考慮事項の 1 つとして使用されます。DR 戦略を選択する際のその他の考慮事項としては、コストの制約、ワークロードの依存関係、運用要件があります。

RTO については、停止時間に基づく影響を理解してください。線形か、それとも非線形の意味合いがあるか (例えば、4 時間後に、次のシフトの開始まで製造ラインをシャットダウンしておく)。

次のようなディザスタリカバリマトリックスは、ワークロードが復旧目標にどの程度関係しているかを理解するのに役立ちます。(X 軸と Y 軸の実際の値は、組織のニーズに合わせてカスタマイズしてください)。

ディザスタリカバリマトリックスを示すチャート

図16: ディザスタリカバリマトリックス

一般的なアンチパターン:

  • 復旧目標を定義していない。

  • 任意の復旧目標を選択する。

  • 過度に寛大で、ビジネス目標を満たさない復旧目標を選択する。

  • ダウンタイムとデータ損失の影響を理解していない。

  • 復旧時間ゼロやデータ損失ゼロなど、ワークロード設定では達成できない恐れのある非現実的な復旧目標を選択する。

  • 実際のビジネス目標よりも厳格な復旧目標を選択する。これにより、ワークロードが必要とするよりもコストが高く、複雑な DR 実装を強いられます。

  • 依存するワークロードの復旧目標とは互換性のない復旧目標を選択する。

  • 復旧目標で規制コンプライアンス要件が考慮されていない。

  • ワークロードの RTO と RPO は定義されたが、テストされていない。

このベストプラクティスを活用するメリット: 時間とデータ損失の復旧目標は、DR 実装の指針とするために必要です。

このベストプラクティスを活用しない場合のリスクレベル:

実装のガイダンス

特定のワークロードについて、ダウンタイムとデータ損失がビジネスに与える影響を理解する必要があります。一般に、ダウンタイムが長いほど、またはデータ損失が大きいほど、影響は増加しますが、この増加の形状はワークロードのタイプによって異なります。例えば、1 時間までのダウンタイムなら耐えられ、影響もほとんどないかもしれませんが、その後は影響が急増するかもしれません。ビジネスへの影響は、金銭的コスト (減益など)、顧客の信頼 (と評判への影響)、運用上の問題 (給与未払いや生産性の低下など)、規制リスクなど、多くの形態をとります。以下のステップを使用して、これらの影響を理解し、ワークロードの RTO と RPO を設定してください。

実装手順

  1. このワークロードのビジネスステークホルダーを決め、これらのステップを実装するように促します。ワークロードの復旧目標は、ビジネス上の決定です。技術チームはビジネスステークホルダーと協力して、これらの目標に基づいて DR 戦略を選択します。

    注記

    ステップ 2 と 3 については、以下を使用してください。 実装ワークシート.

  2. 以下の質問に答えることによって、決定を下すために必要な情報を集めます。

  3. ワークロードが組織に与える影響について、重要度のカテゴリまたは階層がありますか?

    1. ある場合、このワークロードをカテゴリに割り当てます。

    2. ない場合は、これらのカテゴリを確立します。5 つ以下のカテゴリを作成し、それぞれの目標復旧時間の範囲を絞り込みます。カテゴリの例としては、重要、高、中、低などがあります。ワークロードがどのようにカテゴリにマッピングされるかを理解するには、ワークロードがミッションクリティカルであるか、ビジネスにとって重要であるか、それともビジネスを駆動するものではないかを考慮します。

    3. カテゴリに基づいて、ワークロードの RTO と RPO を設定します。このステップに入るときに計算した元の値より厳しいカテゴリ (低い RTO および RPO) を選ぶようにします。この結果、値の変化が不適切に大きくなる場合には、新しいカテゴリの作成を検討します。

  4. これらの回答に基づいて、RTO 値と RPO 値をワークロードに割り当てます。これは直接行うか、ワークロードを事前定義のサービス階層に割り当てることで行うことができます。

  5. このワークロードのディザスタリカバリプラン (DRP) を文書化し、組織の ビジネス継続性計画 (BCP)の一部とし、ワークロードチームとステークホルダーがアクセスできる場所に保管します。

    1. RTO および RPO と、これらの値を決めるために使用した情報を記録します。ワークロードがビジネスに与える影響を評価するために使用した戦略も含めます。

    2. RTO と RPO のほかに、ディザスタリカバリ目標のために追跡しているか、追跡する予定のその他のメトリクスも記録します。

    3. DR 戦略とランブックを作成したときには、これらの詳細をこのプランに追加します。

  6. 図 15 のようなマトリックスでワークロードの重要性を調べることで、組織で定義される事前定義のサービス階層の確立を開始できます。

  7. に従って DR 戦略 (または DR 戦略の概念実証) を実装した後REL13-BP02 復旧目標を満たすため、定義された復旧戦略を使用する、この戦略をテストして、ワークロードの実際の RTC (復旧時間機能) と RPC (復旧時点機能) を判断します。これらがターゲットの復旧目標を満たさない場合は、ビジネスステークホルダーと協力して目標を調整するか、DR 戦略に変更を加えて、ターゲット目標を満たします。

主な質問

  1. ワークロードがダウンしてからビジネスに重大な影響が出るまでの最大時間はどのくらいですか。

    1. ワークロードが中断した場合にビジネスに及ぼす 1 分間あたりの金銭的コスト (直接的な経済的影響) を判断します。

    2. 影響が常に線形とは限らないことを考慮します。影響は最初は限定的でも、臨界時点を超えると急増することがあります。

  2. ビジネスに重大な影響が出るデータ損失の最大量はどのくらいですか。

    1. 最も重要なデータストアについて、この値を考慮します。その他のデータストアのそれぞれの重要度を特定します。

    2. ワークロードデータが失われた場合、再作成できますか? これがバックアップと復元よりも運用上容易な場合は、ワークロードデータの再作成に使用されるソースデータの重要度に基づいて RPO を選びます。

  3. このワークロードに依存するワークロード (ダウンストリーム) またはこのワークロードが依存するワークロード (アップストリーム) の復旧目標と可用性期待は何ですか?

    1. このワークロードがアップストリームの依存関係の要件を満たすことができる復旧目標を選びます。

    2. ダウンストリームの依存関係の復旧機能を前提として達成可能な復旧目標を選びます。重要でないダウンストリームの依存関係 (「対処」できるもの) は除外できます。または、必要な場合は、ダウンストリームの重要な依存関係と協力して、復旧能力を高めます。

その他の質問

以下の質問と、これらがこのワークロードにどのように適用されるか考慮してください。

  1. 停止のタイプ (リージョン対AZ など) に応じた異なる RTO および RPO がありますか?

  2. RTO/RPO が変更される特定の時期 (季節性、販売イベント、製品の発売) がありますか? その場合、異なる測定と時間境界は何ですか?

  3. ワークロードが中断した場合、何人の顧客が影響を受けますか?

  4. ワークロードが中断した場合、評判への影響は何ですか?

  5. ワークロードが中断した場合に発生する可能性のある、その他の運用上の影響は何ですか? 例えば、E メールシステムが使用できない場合や、給与システムがトランザクションを送信できない場合の従業員の生産性への影響などです。

  6. ワークロードの RTO および RPO は基幹業務および組織の DR 戦略とどのように連携しますか?

  7. サービスの提供に関する内部契約上の義務がありますか? 満たすことができなかった場合の罰則はありますか?

  8. データに関する規制またはコンプライアンス制約は何ですか?

実装ワークシート

このワークシートは、実装ステップ 2 および 3 に使用できます。質問を追加するなど、特定のニーズに応じてこのワークシートを調整することができます。

ワークシート

ワークシート

実装計画の工数レベル: 

リソース

関連するベストプラクティス:

関連するドキュメント:

関連動画: