可用性およびその他:AWS の分散システムの回復力の理解と向上 - 可用性およびその他:AWS の分散システムの回復力の理解と向上

可用性およびその他:AWS の分散システムの回復力の理解と向上

公開日:2021 年 11 月 12 日 (ドキュメント履歴)

今日の企業は、クラウドとオンプレミスの両方で複雑な分散システムを運用しています。企業は、カスタマーにサービスを提供し、ビジネス上の成果を達成するために、これらのワークロードに回復力を持たせたいと考えています。本誌では、回復力の尺度としての可用性について一般的な理解を概説し、可用性の高いワークロードを構築するためのルールを確立し、ワークロードの可用性を向上させる方法についてガイダンスを提供します。

はじめに

可用性の高いワークロードを構築するとはどういう意味ですか。可用性をどのように測定するのですか。ワークロードの可用性を向上させるにはどうすればよいですか。このドキュメントは、このような質問に答えるのに役立ちます。3 つの主要なセクションに分かれています。最初のセクション「可用性の理解」は、主に理論上のものです。ここでは、可用性の定義とそれに影響する要因について、共通の理解を確立します。2 番目のセクション「可用性の測定」では、ワークロードの可用性を経験的に測定する方法について説明します。3 番目のセクション「可用性の高い分散システムの設計」では、最初のセクションで紹介したアイデアを実用的に応用します。AWSさらに、これらのセクション全体にわたり、本誌では、回復力のあるワークロードを構築するためのルールについて説明します。このドキュメントは、「AWS Well-Architected の信頼性の柱」に示されているガイダンスとベストプラクティスをサポートすることを目的としています。

本誌では、多くの代数数学が使用されています。重要なポイントは、数学そのものではなく、この数学が支持する概念です。とはいえ、課題を提示することも本誌の目的です。可用性の高いワークロードを運用する場合、構築したものが意図したとおりに達成されていることを数学的に証明できる必要があります。しっかりと考慮して構築された最高の設計でも、一貫して望ましい結果が得られるとは限りません。つまり、ソリューションの有効性を測定するメカニズムが必要であり、回復力が高く可用性の高い分散システムを構築して運用するには、ある程度の計算が必要です。