Contrôler un point de terminaison asynchrone - Amazon SageMaker

Contrôler un point de terminaison asynchrone

Vous pouvez contrôler SageMaker à l'aide d'Amazon CloudWatch, qui collecte et traite les données brutes pour les transformer en métriques lisibles en quasi temps réel. Avec Amazon CloudWatch, vous pouvez accéder aux informations historiques et acquérir un meilleur point de vue de la façon dont votre service ou application web s'exécute. Pour plus d'informations sur Amazon CloudWatch, veuillez consulter Qu'est-ce que Amazon CloudWatch ?.

Surveillance avec CloudWatch

Voici une liste exhaustive des métriques pour les points de terminaison asynchrones. Toute métrique n'apparaissant pas n'est pas publiée si le point de terminaison est activé pour l'inférence asynchrone. Ces métriques incluent (sans s'y limiter) :

  • OverheadLatency

  • Appels

  • InvocationsPerInstance

Métriques de point de terminaison courantes

Ces métriques sont les mêmes que celles publiées aujourd'hui pour les points de terminaison en temps réel. Pour en savoir plus sur les autres métriques dans Amazon CloudWatch, veuillez consulter Surveiller Amazon SageMaker à l'aide d'Amazon CloudWatch.

Nom de la métrique Description Unité/Statistiques

Invocation4XXErrors

Nombre de demandes dans lesquelles le modèle a retourné un code de réponse HTTP 4xx. Pour chaque réponse 4xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée.

Unités : aucune

Statistiques valides : Moyenne, somme

Invocation5XXErrors

Nombre de requêtes InvokeEndpoint dans lesquelles le modèle a renvoyé un code de réponse HTTP 5xx. Pour chaque réponse 5xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée.

Unités : aucune

Statistiques valides : Moyenne, somme

ModelLatency

L'intervalle de temps nécessaire à un modèle pour répondre comme observé depuis SageMaker. Cet intervalle inclut le temps de communication local pris pour envoyer la requête et pour récupérer la réponse du conteneur d'un modèle et le temps nécessaire pour terminer l'inférence dans le conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

Métriques de point de terminaison d'inférence asynchrone

Ces métriques sont publiées pour les points de terminaison activés pour l'inférence asynchrone. Les métriques suivantes sont publiées avec la dimension EndpointName :

Nom de la métrique Description Unité/Statistiques

ApproximateBacklogSize

Nombre d'éléments dans la file d'attente d'un point de terminaison en cours de traitement ou à traiter.

Unités : nombre

Statistiques valides : moyenne, maximum, minimum

ApproximateBacklogSizePerInstance

Nombre d'éléments de la file d'attente divisé par le nombre d'instances derrière un point de terminaison. Cette métrique est principalement utilisée pour configurer la scalabilité automatique des applications pour un point de terminaison asynchrone.

Unités : nombre

Statistiques valides : moyenne, maximum, minimum

ApproximateAgeOfOldestRequest

Âge de la requête la plus ancienne de la file d'attente.

Unités : secondes

Statistiques valides : moyenne, maximum, minimum

Les métriques suivantes sont publiées avec les dimensions EndpointName et VariantName :

Nom de la métrique Description Unité/Statistiques

RequestDownloadFailures

Lorsqu'un échec d'inférence survient en raison d'un problème lors du téléchargement de la requête depuis Amazon S3.

Unités : nombre

Statistiques valides : somme

ResponseUploadFailures

Lorsqu'un échec d'inférence survient en raison d'un problème lors du chargement de la réponse vers Amazon S3.

Unités : nombre

Statistiques valides : somme

NotificationFailures

Lorsqu'un problème survient pendant la publication de notifications.

Unités : nombre

Statistiques valides : somme

RequestDownloadLatency

Temps total de téléchargement de la charge utile de la requête.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ResponseUploadLatency

Temps total de chargement de la charge utile de la réponse.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ExpiredRequests

Nombre de requêtes dans la file d'attente qui échouent en raison de leur durée de vie de requête spécifiée.

Unités : nombre

Statistiques valides : somme

InvocationFailures

Si une invocation échoue pour quelque raison que ce soit.

Unités : nombre

Statistiques valides : somme

InvocationsProcesssed

Nombre d'invocations asynchrones traitées par le point de terminaison.

Unités : nombre

Statistiques valides : somme

TimeInBacklog

Durée totale pendant laquelle la requête a été mise en file d'attente avant d'être traitée. Cela n'inclut pas le temps de traitement réel (c'est-à-dire le temps de téléchargement, le temps de chargement, la latence du modèle).

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

TotalProcessingTime

Heure à laquelle la requête d'inférence a été reçue par SageMaker jusqu'à la fin du traitement de la requête. Cela inclut le temps dans le backlog et le temps nécessaire pour charger et envoyer des notifications de réponse, le cas échéant.

Unités : millisecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

L'inférence asynchrone d'Amazon SageMaker inclut également des métriques au niveau de l'hôte. Pour plus d'informations sur les métriques au niveau de l'hôte, veuillez consulter Tâches SageMaker et métriques de point de terminaison.

Logs

En plus des modèles de journaux de conteneur qui sont publiés sur Amazon CloudWatch dans votre compte, vous obtenez également un nouveau journal de plateforme pour le suivi et le débogage des requêtes d'inférence.

Les nouveaux journaux sont publiés sous le groupe de journaux de points de terminaison :

/aws/sagemaker/Endpoints/[EndpointName]

Le nom de flux de journaux est composé des éléments suivants :

[production-variant-name]/[instance-id]/data-log.

Les lignes des journaux contiennent l'ID d'inférence de la requête, de sorte que les erreurs peuvent être facilement mappées à une requête particulière.