Objectifs de niveau de service (SLO) - Amazon CloudWatch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Objectifs de niveau de service (SLO)

Application Signals est en version préliminaire. Si vous avez des commentaires concernant cette fonctionnalité, vous pouvez nous contacter à l'adresse app-signals-feedback@amazon .com.

Vous pouvez utiliser Application Signals pour créer des objectifs de niveau de service pour les services destinés à vos opérations métier critiques. En créant des SLO sur ces services, vous pourrez les suivre sur le tableau de bord SLO, ce qui vous donnera une at-a-glance vue d'ensemble de vos opérations les plus importantes.

En plus de créer un aperçu rapide que vos opérateurs peuvent utiliser pour connaître l’état actuel des opérations critiques, vous pouvez utiliser les SLO pour suivre les performances à long terme de vos services, afin de vous assurer qu’ils répondent à vos attentes. Si vous avez conclu des accords de niveau de service avec des clients, les SLO sont un excellent outil pour garantir leur respect.

L’évaluation de l’état de santé de vos services à l’aide des SLO commence par la définition d’objectifs clairs et mesurables basés sur des indicateurs de performance clés, à savoir des indicateurs de niveau de service (SLI). Un SLO suit les performances du SLI par rapport au seuil et à l’objectif que vous avez définis, et indique dans quelle mesure les performances de votre application se situent par rapport au seuil.

Application Signals vous aide à définir des SLO sur vos indicateurs de performance clés. Application Signals collecte les métriques Latency et Availability automatiquement pour chaque service et chaque opération qu’elle découvre, et ces métriques sont souvent idéales pour être utilisées en tant que SLI. Avec l’assistant de création de SLO, vous pouvez utiliser ces métriques pour vos SLO. Vous pouvez ensuite suivre l’état de tous vos SLO à l’aide des tableaux de bord d’Application Signals.

Vous pouvez définir des SLO pour des opérations spécifiques que votre service appelle ou utilise. Vous pouvez utiliser n'importe quelle CloudWatch métrique ou expression métrique comme SLI, en plus d'utiliser les Availability métriques Latency et.

La création de SLO est très importante pour tirer le meilleur parti des signaux d' CloudWatchapplication. Une fois que vous avez créé des SLO, vous pouvez consulter leur état dans la console Application Signals pour voir rapidement lesquels de vos services et opérations critiques fonctionnent bien et lesquels ne le sont pas. Le fait d’avoir des SLO à suivre offre les principaux avantages suivants :

  • Il est plus facile pour vos opérateurs de services de voir l’état de fonctionnement actuel des services critiques par rapport au SLI. Ils peuvent ensuite rapidement trier et identifier les services et les opérations non saines.

  • Vous pouvez suivre les performances de vos services par rapport à des objectifs métier mesurables sur de longues périodes.

En choisissant les paramètres sur lesquels définir les SLO, vous priorisez ce qui est important pour vous. Les tableaux de bord d’Application Signals présentent automatiquement des informations sur ce que vous avez priorisé.

Lorsque vous créez un SLO, vous pouvez également choisir de créer des CloudWatch alarmes en même temps pour surveiller les SLO. Vous pouvez définir des alarmes qui surveillent les dépassements du seuil, ainsi que les niveaux d’alerte. Ces alarmes peuvent vous avertir automatiquement si les métriques SLO dépassent le seuil que vous avez défini ou s’approchent d’un seuil d’avertissement. Par exemple, un SLO proche de son seuil d’alerte peut vous indiquer que votre équipe devra peut-être ralentir le taux de désabonnement de l’application pour s’assurer que les objectifs de performance à long terme sont atteints.

Concepts SLO

Un SLO comprend les composants suivants :

  • Un indicateur de niveau de service (SLI), qui est une métrique de performance clé que vous spécifiez. Il représente le niveau de performance souhaité pour votre application. Application Signals collecte les métriques clés Latency et Availability automatiquement pour les services et opérations qu’elle découvre, et ces métriques sont souvent idéales pour être utilisées en tant que SLO.

    Vous choisissez le seuil à utiliser pour votre SLI. Par exemple, 200 ms pour la latence.

  • Un objectif ou un objectif de réalisation, qui est le pourcentage de temps pendant lequel le SLI devrait atteindre le seuil sur chaque intervalle de temps. Les intervalles de temps peuvent être de quelques heures ou d’une année.

    Les intervalles peuvent être des intervalles calendaires ou des intervalles glissants.

    • Les intervalles du calendrier sont alignés sur le calendrier, par exemple pour un SLO suivi par mois. CloudWatch ajuste automatiquement les chiffres de santé, de budget et de réussite en fonction du nombre de jours par mois. Les intervalles calendaires sont mieux adaptés aux objectifs métier mesurés sur une base alignée sur le calendrier.

    • Les intervalles glissants sont calculés sur une base continue. Les intervalles glissants sont mieux adaptés au suivi de l’expérience utilisateur récente de votre application.

  • La période est une unité de temps plus courte, et plusieurs périodes constituent un intervalle. Les performances de l’application sont comparées au SLI pendant chaque période comprise dans l’intervalle. Pour chaque période, il est déterminé que l’application a atteint ou non les performances nécessaires.

Par exemple, un objectif de 99 % avec un intervalle calendaire d’un jour et une période d’une minute signifie que l’application doit atteindre ou atteindre le seuil de réussite pendant 99 % des périodes d’une minute de la journée. Si c’est le cas, le SLO est atteint pour ce jour-là. Le jour suivant correspond à un nouvel intervalle d’évaluation, et l’application doit atteindre ou atteindre le seuil de réussite pendant 99 % des périodes d’une minute du deuxième jour pour atteindre le SLO du deuxième jour.

Un SLI peut être basé sur l’une des nouvelles métriques d’application standard collectées par Application Signals. Il peut également s'agir de n'importe quelle CloudWatch métrique ou expression métrique. Les métriques d’application standard que vous pouvez utiliser pour un SLI sont Latency et Availability. Availability représente le nombre de réponses réussies divisé par le nombre total de demandes. Il est calculé sous la forme (1 - taux de défaillance) * 100, les réponses aux défaillances étant des erreurs 5xx. Les réponses positives sont des réponses sans erreur 5XX. Les réponses 4XX sont considérées comme réussies.

Note

Actuellement, seuls les calculs basés sur les périodes sont pris en charge. La prise en charge des calculs basés sur le volume ou les requêtes est prévue pour les prochaines versions.

Calcul du budget d’erreur et du résultat atteint

Lorsque vous consultez les informations relatives à un SLO, vous pouvez voir son état de santé actuel et son budget d’erreurs. Le budget d’erreur est le laps de temps compris dans l’intervalle pendant lequel il est possible de dépasser le seuil tout en permettant d’atteindre le SLO. Le budget d’erreurs total est la quantité totale de temps de dépassement qui peut être tolérée sur l’ensemble de l’intervalle. Le budget d’erreurs restant est le temps de dépassement restant qui peut être toléré pendant l’intervalle en cours. Ceci après avoir soustrait du budget d’erreur total le temps de dépassement qui s’est déjà produit.

La figure suivante illustre les concepts de budget de réalisation et d’erreur pour un objectif avec un intervalle de 30 jours, des périodes d’une minute et un objectif de réalisation de 99 %. 30 jours comprennent 43 200 périodes d’une minute. 99 % de 43 200, c’est 42 768, donc 42 768 minutes par mois doivent être saines pour que le SLO soit atteint. Jusqu’à présent, dans l’intervalle actuel, 130 des périodes d’une minute n’étaient pas saines.

Détermination du succès au cours de chaque période

Au cours de chaque période, les données du SLI sont agrégées en un seul point de données sur la base des statistiques utilisées pour le SLI. Ce point de données représente la durée totale de la période. Ce point de données unique est comparé au seuil SLI pour déterminer si la période est saine. L’affichage sur le tableau de bord des périodes non saines pendant l’intervalle de temps en cours peut avertir vos opérateurs de services que le service doit être trié.

S’il est déterminé que la période n’est pas saine, la durée totale de la période est prise en compte comme un échec dans le calcul du budget d’erreur. Le suivi du budget d’erreurs vous permet de savoir si le service atteint les performances souhaitées sur une longue période.

Création d’un SLO

Nous vous recommandons de définir des SLO de latence et de disponibilité pour vos applications critiques. Ces indicateurs collectés par Application Signals correspondent aux objectifs métier communs.

Vous pouvez également définir des SLO pour n'importe quelle CloudWatch métrique ou expression mathématique de métrique aboutissant à une seule série chronologique.

La première fois que vous créez un SLO dans votre compte, le rôle AWSServiceRoleForCloudWatchApplicationSignalslié au service est CloudWatch automatiquement créé dans votre compte, s'il n'existe pas déjà. Ce rôle lié au service permet de CloudWatch collecter des données de CloudWatch journal, des données de suivi X-Ray, des données CloudWatch métriques et des données de balisage à partir des applications de votre compte. Pour plus d'informations sur les rôles CloudWatch liés à un service, consultez. Utilisation des rôles liés aux services pour CloudWatch

Pour créer un SLO
  1. Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.

  2. Dans le panneau de navigation, sélectionnez Objectifs de niveau de service (SLO).

  3. Choisissez Créer un SLO.

  4. Saisissez un nom pour le SLO. L’inclusion du nom d’un service ou d’une opération, ainsi que des mots clés appropriés tels que la latence ou la disponibilité, vous aidera à identifier rapidement ce que l’état du SLO indique lors du triage.

  5. Pour Définir un indicateur de niveau de service (SLI), procédez de l’une des manières suivantes :

    • Pour définir le SLO sur l’une des métriques d’application standard Latency ou Availability :

      1. Choisissez Opération de service.

      2. Sélectionnez le service que ce SLO surveillera.

      3. Sélectionnez l’opération que ce SLO surveillera.

        Les listes déroulantes Sélectionner un service et Sélectionner une opération contiennent les services et les opérations qui ont été actifs au cours des dernières 24 heures.

      4. Choisissez Disponibilité ou Latence, puis définissez le seuil.

    • Pour définir le SLO sur une CloudWatch métrique ou une expression mathématique de CloudWatch métrique, procédez comme suit :

      1. Choisissez CloudWatch Metric.

      2. Choisissez Sélectionner une CloudWatch métrique.

        L’écran Sélectionner une métrique apparaît. Utilisez les onglets Parcourir ou Requête pour trouver la métrique souhaitée, ou créez une expression mathématique de métrique.

        Après avoir sélectionné la métrique souhaitée, choisissez l’onglet Graphiques des métriques et sélectionnez la Statistique et la Période à utiliser pour le SLO. Ensuite, choisissez Select metric (Sélectionner une métrique).

        Pour plus d’informations sur ces écrans, veuillez consulter Représenter graphiquement une métrique et Ajouter une expression mathématique à un CloudWatch graphique.

      3. Pour Définir la condition, sélectionnez un opérateur de comparaison et un seuil que le SLO utilisera comme indicateur de réussite.

  6. Si vous avez sélectionné Opération de service à l’étape 5, vous pouvez éventuellement sélectionner Paramètres supplémentaires, puis ajuster la durée de la période pour ce SLO.

  7. Définissez l’intervalle et l’objectif de réalisation pour le SLO. Pour plus d’informations sur les intervalles et les objectifs de réalisation et la manière dont ils fonctionnent ensemble, veuillez consulter.la rubrique Concepts SLO.

  8. (Facultatif) Définissez une ou plusieurs CloudWatch alarmes ou un seuil d'avertissement pour le SLO.

    1. CloudWatch les alarmes peuvent utiliser Amazon SNS pour vous avertir de manière proactive si une application est défectueuse en fonction de ses performances SLI.

      Pour créer une alarme, cochez l’une des cases d’alarme et saisissez ou créez la rubrique Amazon SNS à utiliser pour les notifications lorsque l’alarme passe à l’état ALARM. Pour plus d'informations sur les CloudWatch alarmes, consultez Utilisation des CloudWatch alarmes Amazon. La création d’alarmes entraîne des frais. Pour plus d'informations sur CloudWatch les tarifs, consultez Amazon CloudWatch Pricing.

    2. Si vous définissez un seuil d’avertissement, celui-ci apparaît dans les écrans d’Application Signals pour vous aider à identifier les SLO qui risquent de ne pas être atteints, même s’ils sont actuellement sains.

      Pour définir un seuil d’avertissement, saisissez la valeur du seuil dans Seuil d’avertissement. Lorsque le budget d’erreur du SLO est inférieur au seuil d’avertissement, le SLO est marqué d’un Avertissement sur plusieurs écrans d’Application Signals. Les seuils d’avertissement apparaissent également sur les graphiques du budget d’erreur. Vous pouvez également créer une Alarme d’avertissement SLO basée sur le seuil d’avertissement.

  9. Pour ajouter des tags à ce SLO, choisissez l’onglet Balises, puis choisissez Ajouter une nouvelle balise. Les balises peuvent vous aider à gérer, identifier, organiser, rechercher et filtrer des ressources. Pour plus d’informations sur le balisage, veuillez consulter la rubrique Tagging your AWS resources.

    Note

    Si l'application à laquelle cette SLO est associée est enregistrée AWS Service Catalog AppRegistry, vous pouvez utiliser la awsApplication balise pour associer cette SLO à cette application AppRegistry. Pour plus d'informations, voir Qu'est-ce que c'est AppRegistry ?

  10. Choisissez Créer un SLO. Si vous avez également choisi de créer une ou plusieurs alarmes, le nom du bouton change en conséquence.

Afficher et trier le statut du SLO

Vous pouvez rapidement vérifier l'état de vos SLO à l'aide des objectifs de niveau de service ou des options de services de la CloudWatch console. La vue Services fournit une at-a-glance vue du ratio de services défectueux, calculé en fonction des SLO que vous avez définis. Pour plus d’informations sur l’utilisation de l’option Services, veuillez consulter la rubrique Surveillez l’état de fonctionnement de vos applications avec Application Signals.

La vue des Objectifs de niveau de service fournit une vue macro de votre organisation. Vous pouvez voir les SLO atteints et non atteints dans leur ensemble. Cela vous donne une idée du nombre de vos services et opérations qui répondent à vos attentes sur de longues périodes, en fonction des SLI que vous avez choisis.

Pour afficher tous vos SLO à l’aide de la vue Objectifs de niveau de service
  1. Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.

  2. Dans le panneau de navigation, sélectionnez Objectifs de niveau de service (SLO).

    La liste des Objectifs de niveau de service (SLO) apparaît.

    Vous pouvez rapidement voir l’état actuel de vos SLO dans la colonne État des SLI. Pour trier les SLO de manière à ce que tous ceux qui ne sont pas sains figurent en haut de la liste, choisissez la colonne État des SLI jusqu’à ce que les SLO non sains apparaissent tous en haut de la liste.

    La table SLO comporte les colonnes par défaut suivantes. Vous pouvez ajuster les colonnes affichées en choisissant l’icône représentant un engrenage au-dessus de la liste. Pour plus d’informations sur les objectifs, les SLI, les résultats atteints et les intervalles, veuillez consulter la rubrique Concepts SLO.

    • Le nom du SLO.

    • La colonne Objectif affiche le pourcentage de périodes pendant chaque intervalle qui doivent atteindre le seuil SLI pour que l’objectif SLO soit atteint. Elle affiche également la durée de l’intervalle pour le SLO.

    • État du SLI indique si l’état de fonctionnement actuel de l’application est sain ou non. Si une période quelconque de l’intervalle de temps sélectionné n’était pas saine pour le SLO, État du SLI indique Non sain.

    • Le Niveau final est le niveau de réalisation atteint à la fin de l’intervalle de temps sélectionné. Triez selon cette colonne pour voir les SLO les plus susceptibles de ne pas être atteints.

    • Le Delta d’atteinte est la différence de niveau de réalisation entre le début et la fin de l’intervalle de temps sélectionné. Un delta négatif signifie que la métrique suit une tendance à la baisse. Triez selon cette colonne pour voir les dernières tendances des SLO.

    • Le budget d’erreur de fin (%) est le pourcentage du temps total de la période pendant laquelle il peut y avoir des périodes non saines tout en atteignant le SLO avec succès. Si vous définissez ce paramètre sur 5 % et que le SLI est défectueux pendant 5 % ou moins des périodes restantes de l’intervalle, le SLO est toujours atteint avec succès.

    • Le Delta du budget d’erreur est la différence du budget d’erreur entre le début et la fin de l’intervalle de temps sélectionné. Un delta négatif signifie que la métrique suit une tendance défavorable.

    • Le Budget d’erreur de fin (temps) est la durée réelle au sein de l’intervalle qui peut être non saine tout en permettant d’atteindre le SLO avec succès. Par exemple, si ce délai est de 14 minutes, si le SLI est non sain pendant moins de 14 minutes pendant l’intervalle restant, le SLO sera toujours atteint avec succès.

    • Les colonnes Service, Opération et Type affichent des informations sur le service et l’opération pour lesquels ce SLO est configuré.

  3. Pour afficher les graphiques du budget d’atteinte et d’erreur pour un SLO, choisissez la case d’option en regard du nom du SLO.

    Les graphiques en haut de la page indiquent le degré de réalisation du SLO et l’état du budget d’erreur. Un graphique concernant la métrique SLI associée à ce SLO est également affiché.

  4. Pour mieux trier un SLO qui n’atteint pas son objectif, choisissez le nom du service ou le nom de l’opération associé à ce SLO. Vous êtes redirigé vers la page de détails où vous pouvez effectuer un tri plus approfondi. Pour plus d’informations, consultez Consultez le détail de l'activité des services et de l'état de fonctionnement sur la page détaillée des services.

  5. Pour modifier la plage temporelle des graphiques et des tableaux de la page, choisissez un nouvel intervalle de temps en haut de l’écran.

Modification d’un SLO existant

Suivez ces étapes pour modifier un SLO existant. Lorsque vous modifiez un SLO, vous ne pouvez modifier que le seuil, l’intervalle, l’objectif de réalisation et les balises. Pour modifier d’autres aspects tels que le service, le fonctionnement ou les métriques, créez un SLO au lieu d’en modifier un existant.

La modification d’une partie de la configuration de base d’un SLO, telle que la période ou le seuil, invalide tous les points de données et évaluations précédents concernant les résultats et l’état de santé. En réalité, cela supprime et recrée le SLO.

Note

Si vous modifiez un SLO, les alarmes associées à ce SLO ne sont pas automatiquement mises à jour. Vous devrez peut-être mettre à jour les alarmes pour qu’elles restent synchronisées avec le SLO.

Pour modifier un SLO existant
  1. Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.

  2. Dans le panneau de navigation, sélectionnez Objectifs de niveau de service (SLO).

  3. Choisissez la case d’option en regard du SLO que vous souhaitez modifier, puis choisissez Actions, Modifier le SLO.

  4. Effectuez les modifications, puis choisissez Enregistrer les modifications.

Suppression d’un SLO

Suivez ces étapes pour supprimer un SLO existant.

Note

Si vous supprimez un SLO, les alarmes associées à ce SLO ne sont pas automatiquement supprimées. Vous devrez les supprimer vous-même. Pour plus d’informations, consultez Gérer les alarmes.

Pour supprimer un SLO
  1. Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.

  2. Dans le panneau de navigation, sélectionnez Objectifs de niveau de service (SLO).

  3. Choisissez la case d’option en regard du SLO que vous souhaitez modifier, puis choisissez Actions, Supprimer le SLO.

  4. Choisissez Confirmer.