REL05-BP07 緊急レバーを実装する
緊急レバーは、ワークロードの可用性に対する影響を軽減できる迅速なプロセスです。
緊急レバーは、既知のテスト済みのメカニズムを使用して、コンポーネントや依存関係の動作を無効にしたり、制限したり、変更したりするためのものです。その効果として、想定外の需要増によるリソースの枯渇が原因となるワークロードの障害を軽減し、ワークロード内の重要ではないコンポーネントの障害の波及を抑制できます。
期待される成果: 緊急レバーを実装することで、ワークロードの重要なコンポーネントの可用性を維持するための、問題のないことが確認済みのプロセスを確立できます。緊急レバーが作動している間、ワークロードは意図的に性能を落とし (グレースフルデグラデーション)、ビジネスに不可欠な機能を引き続き実行します。グレースフルデグラデーションの詳細については、「REL05-BP01 該当するハードな依存関係をソフトな依存関係に変換するため、グレースフルデグラデーションを実装する」を参照してください。
一般的なアンチパターン:
-
重要ではない依存関係に障害が発生した場合に、主要ワークロードの可用性に影響が波及する。
-
重要ではないコンポーネントに障害が起きている間に、重要なコンポーネントの動作をテストまたは検証しない。
-
緊急レバーの作動または作動解除に関する決定的な基準が明確に定義されていない。
このベストプラクティスを活用するメリット: 緊急レバーを実装すると、想定外の需要の急増や重要ではない依存関係の障害に対処するためのプロセスを確立し、リゾルバーに提供できるため、ワークロードの重要なコンポーネントの可用性を向上させることができます。
このベストプラクティスが確立されていない場合のリスクレベル: 中
実装のガイダンス
-
ワークロードの重要なコンポーネントを特定します。
-
重要ではないコンポーネントに障害が起きても耐えられるように、ワークロードの重要なコンポーネントを設計し、構築します。
-
重要ではないコンポーネントで障害が発生している最中に、重要なコンポーネントの動作を検証するためのテストを実施します。
-
緊急レバーの手続き開始の基準となる適切な指標やトリガーを定義し、監視します。
-
緊急レバーを構成する手順 (手動または自動) を定義します。
実装手順
-
ワークロード内のビジネスクリティカルなコンポーネントを特定します。
-
ワークロードの技術的なコンポーネントをそれぞれ適切なビジネス機能にマッピングし、重要または非重要にランク分けします。Amazon の重要な機能と重要ではない機能の例については、「Any Day Can Be Prime Day: How Amazon.com Search Uses Chaos Engineering to Handle Over 84K Requests Per Second
」を参照してください。 -
これは技術上の決定でもビジネス上の決定でもあり、組織やワークロードによって異なります。
-
-
重要ではないコンポーネントに障害が起きても耐えられるように、ワークロードの重要なコンポーネントを設計し、構築します。
-
依存関係の分析では、想定される障害モードをすべて検討し、緊急レバーのメカニズムを通じて、ダウンストリームのコンポーネントも重要な機能を利用できるか検証します。
-
-
緊急レバーが作動している間に、重要なコンポーネントの動作を検証するためのテストを実施してください。
-
バイモーダル動作は防止してください。詳細については、REL11-BP05 静的安定性を使用してバイモーダル動作を防止する」を参照してください。
-
-
緊急レバーの手続き開始の基準となる指標を定義して監視し、警戒します。
-
ワークロードに応じて、監視対象として適切な指標を判断してください。指標の例としては、レイテンシーや、依存関係へのリクエストの失敗回数などが該当します。
-
-
緊急レバーを構成する手順 (手動または自動) を定義します。
-
これには、負荷制限
、リクエストのスロットリング、グレースフルデグラデーションの実装などのメカニズムが使用される場合があります。
-
リソース
関連するベストプラクティス:
関連するドキュメント:
関連動画: