FIS AWS 実験の計画

フォールトインジェクションは、サーバー停止や API スロットリングなどの破壊的なイベントを作成することで、テスト環境や本番環境でアプリケーションに負荷をあたえるプロセスです。システムの応答を観察することで、改善を実装できます。システム上で実験を実行すると、システムに依存している顧客に影響を与える前に、システム上の弱点を制御された方法で特定するのに役立ちます。そうすれば、問題をプロアクティブに解決して、予測不可能な結果を防ぐことができます。

AWS FIS を使用してフォールトインジェクション実験を開始する前に、以下の原則とガイドラインを理解しておくことをお勧めします。

重要

AWS FIS は、システム内の実際の AWS リソースに対して実際のアクションを実行します。したがって、FIS AWS を使用して実験を実行する前に、まず本番稼働前環境またはテスト環境で計画フェーズとテストを完了することを強くお勧めします。

基本原則とガイドライン

FIS AWS で実験を開始する前に、次の手順を実行します。

実験のターゲット展開を特定する — まず、ターゲットデプロイを特定します。これが最初の実験の場合は、プリプロダクションまたはテスト環境で開始することをお勧めします。
アプリケーションアーキテクチャを確認する: 各コンポーネントのすべてのアプリケーションコンポーネント、依存関係、およびリカバリ手順を特定していることを確認する必要があります。まず、アプリケーションアーキテクチャを見直します。アプリケーションによっては、「AWS Well-Architected フレームワーク」を参照してください。
定常状態の動作を定義する - レイテンシー、CPU 負荷、1 分あたりの失敗したサインイン、再試行回数、ページ読み込み速度など、重要な技術的およびビジネス指標の観点から、システムの定常状態の動作を定義します。
仮説を形成する — 実験中にシステムの動作がどのように変化すると予想されるかについての仮説を作成します。仮説の定義は次の形式に従います。

フォールトインジェクションアクションを実行した場合、ビジネスメトリクスまたは技術メトリクスへの影響は値を超えないものとします。

例えば、認証サービスの仮説を次のように設定します。ネットワーク遅延が 10% 増加すると、サインイン失敗が 1% 未満増加する。実験の完了後、アプリケーションの復元力がビジネスおよび技術的な期待に沿っているかどうかを評価します。

FIS AWS を使用する際は、以下のガイドラインに従うことをお勧めします。

常にテスト環境で FIS AWS の実験を開始してください。決して本番環境では開始しないでください。フォールトインジェクション実験を進めていくと、テスト環境以外の制御環境でも実験できるようになります。
アプリケーションの復元力に対するチームの自信を構築するには、以下を実行するなど、小規模で簡単な実験から始めましょう。ターゲットに対する aws:ec2:stop-instances アクション。
フォールトインジェクションは、実際の問題を引き起こす可能性があります。慎重に進み、顧客が影響を受けないように、最初のフォールトインジェクションがテストインスタンス上にあることを確認してください。
テスト、テスト、テストを繰り返します。フォールトインジェクションは、十分に計画された実験で制御された環境で実装されることを意図しています。これにより、乱流条件に耐えるアプリケーションやツールの能力に自信を持たせることができます。
始める前に、優れた監視およびアラートプログラムを用意することを強くお勧めします。それがなければ、持続可能なフォールトインジェクションの実践に不可欠な実験の影響を理解したり測定したりすることはできません。

実験計画ガイドライン

AWS FIS では、 AWS リソースで実験を実行して、障害条件下でアプリケーションまたはシステムがどのように動作するかの理論をテストします。

AWS FIS 実験を計画するための推奨ガイドラインを次に示します。

停止履歴の確認 - システムの以前の停止とイベントを確認します。これは、システムの全体的な健全性と回復力を把握するのに役立ちます。システムで実験を実行する前に、システムの既知の問題と弱点に対処する必要があります。
最も大きな影響を持つサービスを特定する - サービスを確認し、エンドユーザーまたは顧客に障害が発生した場合や正常に機能しない場合に、最も大きな影響を与えるサービスを特定します。
ターゲットシステムを特定する — ターゲットシステムは、実験を実行するシステムです。 AWS FIS を初めて使用する場合、またはフォールトインジェクション実験を一度も実行したことがない場合は、まず本番稼働前システムまたはテストシステムで実験を実行することをお勧めします。
チームに相談する — 彼らが心配しているものを聞いてください。仮説を立てて、彼らの懸念を証明または反証することができます。また、チームに心配していないことを聞くこともできます。この質問は、2つのよくある誤謬を明らかにすることができます。サンクコスト誤謬と確認バイアスの誤謬です。チームの回答に基づいて仮説を形成すると、システムの状態の現実に関する詳細情報を提供できます。
アプリケーションアーキテクチャを確認する - システムまたはアプリケーションのレビューを実施し、すべてのコンポーネントのすべてのアプリケーションコンポーネント、依存関係、およびリカバリ手順を特定していることを確認します。

AWS Well-Architected フレームワークを確認することをお勧めします。このフレームワークは、アプリケーションとワークロードのために、安全で、高パフォーマンス、耐障害性、および効率的なインフラストラクチャを構築するのに役立ちます。詳細については、「AWS Well-Architected」を参照してください。
該当するメトリクスを特定する — Amazon CloudWatch メトリクスを使用して、実験が AWS リソースに与える影響をモニタリングできます。これらのメトリクスを使用して、アプリケーションが最適に実行されているときのベースラインまたは「定常状態」を判断できます。その後、実験中または実験後にこれらのメトリクスを監視して、影響を判断できます。詳細については、「Amazon CloudWatch AWS を使用して FIS 使用状況メトリクスをモニタリングする」を参照してください。
システムの許容可能なパフォーマンスしきい値を定義する — システムの許容可能な定常状態を表すメトリクスを特定します。このメトリクスを使用して、実験の停止条件を表す 1 つ以上の CloudWatch アラームを作成します。アラームがトリガーされると、実験は自動的に停止します。詳細については、「FIS AWS の停止条件」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

FIS AWS とは

実験テンプレートのコンポーネント