サービスレベル目標 (SLO) - Amazon CloudWatch

サービスレベル目標 (SLO)

Application Signals を使用すると、重要な事業運営向けサービスに配慮したサービスレベル目標を作成できます。こうしたサービスに SLO を作成したら、SLO ダッシュボードでそれらを追跡できる上、最も重要なオペレーションをひとめで確認することも可能です。

また、重要なオペレーションの現在のステータスを表示できるようオペレーター向けにクイックビューを作成するだけでなく、SLO を使用してサービスの長期的なパフォーマンスを追跡したり、サービスが想定どおりに提供されているかどうかを確認したりすることも可能です。顧客とサービスレベル契約を結んでいる場合、SLO はそれを確実に満たす手段と言えるでしょう。

SLO を使用してサービスの正常性を評価するには、まず、主要なパフォーマンス指標 (サービスレベル指標 (SLI)) に基づいて、明確で測定可能な目標を設定します。SLO を導入すると、設定したしきい値と目標に照らして SLI パフォーマンスを追跡すると同時に、アプリケーションのパフォーマンス値としきい値との差がどの程度開いているかを報告できます。

Application Signals を使用すると、主要なパフォーマンス指標に SLO を設定できます。Application Signals では、検出したすべてのサービスとオペレーションについて LatencyAvailability のメトリクスを自動的に収集します。多くの場合、こうしたメトリクスは、SLI としての使用に理想的であり、SLO 作成ウィザードに従うことで独自の SLO に利用できます。その後、Application Signals ダッシュボードから、全 SLO のステータスを追跡することが可能です。

SLO は、サービスで呼び出したり使用したりする特定のオペレーションに設定できます。また、LatencyAvailability のメトリクスの他に、任意の CloudWatch メトリクスまたはメトリクス式を SLI として使用することも可能です。

CloudWatch Application Signals を最大限に活用するには、SLO の作成が非常に重要です。SLO を作成すると、Application Signals コンソールで重要なサービスやオペレーションのステータスを確認し、パフォーマンスが良いものや動作が異常なものを特定できます。SLO の追跡により、次のような大きな利点を得られます。

  • SLI に照らして測定している重要なサービスについて、オペレーションの現在の正常性を簡単に確認できるため、問題のあるサービスやオペレーションを迅速に優先順位付けし、特定することが可能です。

  • サービスのパフォーマンスを、測定可能なビジネス目標に照らして長期的に追跡できます。

SLO の設定対象を選択することで情報の重要度を指定でき、Application Signals ダッシュボードには重要度が高いと見なした情報が自動的に表示されます。

SLO の作成時には、CloudWatch アラームを作成して、SLO をモニタリングすることも可能です。しきい値越えや警告レベルをモニタリングするようアラームを設定できます。こうしたアラームによって、SLO メトリクスが設定したしきい値を超えたり、警告のしきい値に近づいたりした場合に自動的に通知を受けられます。例えば、SLO の値が警告のしきい値に近づくと通知が届くため、長期的なパフォーマンス目標を達成するには、そのアプリケーションでのチャーン抑制が必要であると気付くことができます。

SLO の概念

SLO の構成要素を次に示します。

  • サービスレベル指標 (SLI): 指定対象のパフォーマンスメトリクスであり、アプリケーションに必要なパフォーマンスレベルを表します。Application Signals では、検出したサービスとオペレーションについて、主要なメトリクスである LatencyAvailability を自動的に収集します。これらは、SLO の設定に理想的なメトリクスとなることが少なくありません。

    SLI には、使用するしきい値を選択します。例えば、レイテンシーには 200 ミリ秒などと指定します。

  • 目標または達成度目標: 時間間隔のそれぞれで SLI のしきい値を満たすことが求められる時間の長さをパーセンテージで示した値です。この間隔には、数時間のように短い期間や、1 年のように長い期間を設定できます。

    カレンダー間隔とローリング間隔のいずれも設定可能です。

    • カレンダー間隔: カレンダーに従った間隔であり、1 か月ごとに追跡する SLO などがこれに該当します。CloudWatch では、1 か月の日数に基づいて、正常性、予算、達成度の数値を自動的に調整します。カレンダー間隔は、カレンダーに沿って測定するビジネス目標に適しています。

    • ローリング間隔: ローリングベースで測定を行います。この間隔は、アプリケーションで最近提供されたユーザーエクスペリエンスの追跡に適しています。

  • 期間: 短い時間を意味し、間隔は、多数の期間がつながったものと言えます。間隔内の各期間でアプリケーションのパフォーマンスを SLI と比較し、期間ごとに、必要なアプリケーションパフォーマンスが達成されたかどうかを判断します。

例えば、99% という目標で、カレンダー間隔に 1 日、期間に 1 分が指定されている場合、その日のアプリケーションのパフォーマンスは、1 分の 99% に相当する期間、成功のしきい値に達していなければなりません。達していれば、その日の SLO を満たしたことになります。翌日は新規の評価間隔と見なされ、2 日目の SLO を満たすには、2 日目における 1 分の 99% に相当する期間、成功のしきい値に達していることが求められます。

SLI には、Application Signals で収集した新規の標準アプリケーションメトリクスの 1 つ、あるいは、任意の CloudWatch メトリクスまたはメトリクス式を使用できます。標準アプリケーションメトリクスとして SLI に使用できるのは、LatencyAvailability です。Availability は、成功の応答をリクエストの合計で割った数値で表し、(1 - 障害率)*100 のように計算します。ここでの Fault 応答数は 5xx エラーの件数を意味し、成功の応答とは 5XX エラーのない応答を指します。4XX 応答は成功の応答と見なされます。

注記

現在、期間ベースの計算のみサポートされています。ボリュームベースまたはリクエストベースの計算は、今後のリリースでサポート対象となる予定です。

エラーバジェットと達成度を計算する

SLO の情報を表示すると、SLO の現在の正常性とその「エラーバジェット」を確認できます。エラーバジェットとは、対象の間隔内で、しきい値を超えても SLO を満たすことのできる時間の長さを意味し、「総エラーバジェット」は、対象の間隔全体で違反が許容される時間を合計したものです。「残りのエラーバジェット」は、現在の間隔内で許容される残りの違反時間であり、総エラーバジェットから既に発生した違反時間を差し引いた値で表します。

次の図は、間隔が 30 日、期間が 1 分、達成度目標が 99% の目標について、達成度とエラーバジェットの概念を示しています。30 日を分数で表すと 43,200 分であり、43,200 の 99% は 42,768 であるため、SLO を満たすには、当月のうち 42,768 分は正常性を確保しなければなりません。現在の間隔では、異常な期間 (1 分間) がこれまでに 130 回ありました。

SLO 間隔の合計期間と、この SLO の達成度とエラーバジェットの数値を示す棒グラフ。

SLO の達成状況を各期間内で判断する

SLI データは、各期間内で SLI に使用する統計に基づいて 1 つのデータポイントに集計され、このデータポイントが期間全体の長さを表すことになります。その 1 つのデータポイントが SLI のしきい値と比較され、その期間の正常性が判断されます。現在の時間範囲内で異常な期間をダッシュボードで確認できるため、サービスの優先順位付けが必要な状況にすぐに気付くことが可能です。

異常と判断された期間は、エラーバジェット上、その期間全体が違反期間としてカウントされます。エラーバジェットの追跡により、対象のサービスが必要なパフォーマンスを長期的に達成しているかどうかを把握できます。

SLO を作成する

重要なアプリケーションにはレイテンシーと可用性の両方の SLO を設定することをお勧めします。Application Signals で収集するこれらのメトリクスは一般的なビジネス目標として使用できます。

また、任意の CloudWatch メトリクスや、1 つの時系列となるメトリクス数学式に SLO を設定することもできます。

アカウントに SLO を初めて作成したときに CloudWatch がアカウントに AWSServiceRoleForCloudWatchApplicationSignals サービスにリンクされたロールをまだ作成していない場合は自動的に作成します。このサービスにリンクされたロールにより、CloudWatch は CloudWatch Logs データ、X-Ray トレースデータ、CloudWatch メトリクスデータ、タグ付けデータをアカウントのアプリケーションから収集できるようになります。CloudWatch サービスにリンクされたロールの詳細については、「CloudWatch のサービスにリンクされたロールの使用」を参照してください。

SLO を作成するには
  1. CloudWatch コンソール (https://console.aws.amazon.com/cloudwatch/) を開きます。

  2. ナビゲーションペインで、[サービスレベル目標 (SLO)] を選択します。

  3. [SLO の作成] を選択します。

  4. SLO の名前を入力します。サービスやオペレーションの名前と、レイテンシーや可用性といった適切なキーワードを含めると、優先順位付けの対象となっている SLO のステータスを簡単に特定できます。

  5. [サービスレベルインジケータ (SLI) の設定] では、次のいずれかの操作を行います。

    • 標準アプリケーションメトリクスの Latency または Availability のいずれかに SLO を設定するには、次の操作を行います。

      1. [サービスオペレーション] を選択します。

      2. この SLO でモニタリングするサービスを選択します。

      3. この SLO でモニタリングするオペレーションを選択します。

        [サービスの選択][オペレーションの選択] ドロップダウンには、過去 24 時間以内にアクティブになったサービスとオペレーションが表示されます。

      4. [可用性] または [レイテンシー] を選択して、しきい値を設定します。

    • 任意の CloudWatch メトリクス、または CloudWatch メトリクスの数式に SLO を設定するには:

      1. [CloudWatch メトリクス] を選択します。

      2. [CloudWatch メトリクスの選択] を選択します。

        [メトリクスの選択] 画面が表示されます。[ブラウズ] タブまたは [クエリ] タブを使用して、対象のメトリクスを検索するか、メトリクスの数式を作成します。

        対象のメトリクスを選択したら、[グラフ化したメトリクス] タブを選択し、SLO に使用する [統計][期間] を選択します。次に [Select metric] (メトリクスの選択) を選択します。

        これらの画面の詳細については、「メトリクスをグラフ化する」と「CloudWatch グラフに数式を追加する」を参照してください。

      3. [条件の設定] では、SLO で成功の指標として使用する比較演算子としきい値を選択します。

  6. ステップ 5 で [サービスオペレーション] を選択した場合は、[詳細設定] を選択して、この SLO の期間を調整することもできます。

  7. SLO の [間隔][達成度目標] を設定します。間隔と達成度目標、およびこれら 2 つの関連性については、「SLO の概念」を参照してください。

  8. (オプション) SLO に CloudWatch のアラームまたは警告上のしきい値を 1 つ以上設定します。

    1. CloudWatch アラームを使用すると、SLI のパフォーマンスに基づいてアプリケーションの異常を判断し、Amazon SNS による通知をプロアクティブに受けることができます。

      アラームを作成するには、アラームのチェックボックスの 1 つを選択し、アラームが ALARM 状態になった旨の通知に使用する Amazon SNS トピックを入力または作成します。CloudWatch アラームの詳細については、「 Amazon CloudWatch でのアラームの使用」を参照してください。アラームの作成には料金がかかります。CloudWatch の料金の詳細については、Amazon CloudWatch の料金をご覧ください。

    2. 警告のしきい値を設定すると、Application Signals の画面にその値が表示されるため、現在正常値であっても達成が難しくなりそうな SLO を特定できます。

      警告しきい値を設定するには、[警告しきい値] にしきい値を入力します。SLO のエラーバジェットが警告しきい値を下回ると、複数の Application Signals 画面でその SLO に [警告] のマークが付きます。警告しきい値は、エラーバジェットのグラフにも表示でき、警告しきい値に基づいて [SLO 警告アラーム] を作成することも可能です。

  9. この SLO にタグを追加するには、[タグ] タブを選択し、[新規タグの追加] を選択します。タグは、リソースの管理、識別、整理、検索、フィルタリングに役立ちます。タグ付けの詳細については、「AWS リソースのタグ付け」を参照してください。

    注記

    この SLO に関連するアプリケーションが AWS Service Catalog AppRegistry に登録されている場合は、awsApplication タグを使用することで、その SLO を AppRegistry 内の対象アプリケーションに関連付けることができます。詳細については、「What is AppRegistry?」を参照してください。

  10. [SLO の作成] を選択します。1 つ以上のアラームを作成すると、それに応じてボタン名が変更されます。

SLO ステータスの表示と優先順位付けを行う

CloudWatch コンソールの [サービスレベル目標] または [サービス] のオプションを使用すると、SLO の正常性をすぐに確認できます。[サービス] ビューでは、設定済み SLO を基に計算された異常なサービスの割合をひとめで把握できます。[サービス] オプションの使用については、「Application Signals を使用したアプリケーションの運用状態のモニタリング」で詳しく確認できます。

[サービスレベル目標] ビューでは、組織をマクロ的に確認できます。例えば、達成できている SLO と達成できていない SLO を全体的に把握することが可能です。これにより、期待どおりの成果を長期的に得られているサービスおよびオペレーションの数を、選択した SLI に基づいて確認できます。

[Service Level Objects] ビューですべての SLO を表示するには
  1. CloudWatch コンソール (https://console.aws.amazon.com/cloudwatch/) を開きます。

  2. ナビゲーションペインで、[サービスレベル目標 (SLO)] を選択します。

    [サービスレベル目標 (SLO)] リストが表示されます。

    SLO の現在のステータスは [SLI ステータス] 列ですぐに確認できます。すべての異常な SLO がリストの一番上に表示されるように並べ替えるには、異常な SLO がすべて一番上になるまで [SLI ステータス] 列を選択します。

    SLO テーブルには次のようなデフォルトの列があります。表示する列を調整するには、リストの上にある歯車アイコンを選択してください。目標、SLI、達成度、間隔の詳細については、「SLO の概念」を参照してください。

    • SLO の名前。

    • [目標] 列には、各間隔における期間の割合が表示されます。この割合を SLO 目標の SLI しきい値に照らして達成しなければなりません。この列には、SLO の間隔の長さも表示されます。

    • [SLI ステータス] には、アプリケーションの現在のオペレーション状態が正常かどうかが表示されます。現在選択している時間範囲内のいずれかの期間で SLO 違反が生じた場合、[SLI ステータス][異常] と表示されます。

    • [終了時の達成度] は、選択した時間範囲の終了時点で達成したレベルを表します。この列を基準にして並べ替えると、達成できない可能性が最も高い SLO を確認できます。

    • [達成度差] は、選択した時間範囲の開始時と終了時における達成レベルの差であり、これがマイナスの場合、メトリクスが下降傾向にあることを示しています。この列を基準にして並べ替えると、最近の SLO の傾向を確認できます。

    • [終了時エラーバジェット (%)] は、異常な期間があっても SLO を達成したと見なされる期間の合計時間をパーセンテージで示した値です。これを 5% に設定した場合、SLI が異常であっても、その長さが間隔内の残りの期間で 5% 以下であれば SLO を達成したと見なされます。

    • [エラーバジェット差] は、選択した時間範囲の開始時と終了時におけるエラーバジェットの差であり、これがマイナスの場合、メトリクスが下降傾向にあることを示しています。

    • [終了時エラーバジェット (時間)] は、対象の間隔において、異常が発生しても SLO を達成したと見なされる時間の長さです。例えば、これが 14 分の場合、残りの間隔で SLI が異常な時間があっても、それが 14 分未満であれば、SLO を達成したと見なされます。

    • [サービス][オペレーション][タイプ] 列には、この SLO が設定されているサービスとオペレーションの情報が表示されます。

  3. SLO の達成度とエラーバジェットのグラフを表示するには、SLO 名の横にあるラジオボタンを選択します。

    ページ上部に表示されるそれらのグラフで、[SLO の達成度][エラーバジェット] のステータスを確認でき、この SLO に関連する SLI メトリクスのグラフも表示することが可能です。

  4. 達成されていない SLO にさらに優先順位付けを行うには、その SLO に関連するサービス名またはオペレーション名を選択します。優先順位付けをさらに行える詳細ページが表示されます。詳細については、「サービスの詳細ページで詳細なサービスアクティビティとオペレーションヘルスを表示する」を参照してください。

  5. そのページにあるチャートと表の時間範囲を変更するには、画面の上部近くで新しい時間範囲を選択します。

既存の SLO を編集する

既存の SLO を編集するには、次のステップに従います。SLO の編集で、変更できるのは、しきい値、間隔、達成度目標、タグのみです。それ以外のサービス、オペレーション、メトリクスなどを変更するには、既存の SLO を編集せず、SLO を新規作成します。

SLO で最も重要な要素 (期間やしきい値など) を変更すると、達成度や正常性に関する以前のデータポイントや評価がすべて無効になります。SLO は実質的に削除され、再作成されます。

注記

SLO を編集しても、その SLO に関連するアラームは、自動更新されません。SLO との同期を維持するには、アラームの更新が必要となる場合もあります。

既存の SLO を編集するには
  1. CloudWatch コンソール (https://console.aws.amazon.com/cloudwatch/) を開きます。

  2. ナビゲーションペインで、[サービスレベル目標 (SLO)] を選択します。

  3. 編集する SLO の横にあるラジオボタンを選択し、[アクション][SLO の編集] を選択します。

  4. 変更後、[変更の保存] を選択します。

SLO を削除する

既存の SLO を削除するには、次のステップに従います。

注記

SLO を削除しても、その SLO に関連するアラームは、自動削除されないため、手動で削除する必要があります。詳細については、「アラームの管理」を参照してください。

SLO を削除するには
  1. CloudWatch コンソール (https://console.aws.amazon.com/cloudwatch/) を開きます。

  2. ナビゲーションペインで、[サービスレベル目標 (SLO)] を選択します。

  3. 編集する SLO の横にあるラジオボタンを選択し、[アクション][SLO の削除] を選択します。

  4. [確認] を選択します。