Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Journaux et métriques des pipelines d'inférence
La surveillance joue un rôle déterminant pour assurer la fiabilité, la disponibilité et la performance des ressources Amazon SageMaker. Pour contrôler et résoudre les problèmes de performance des pipelines d'inférence, utilisez les journaux et les messages d'erreur Amazon CloudWatch. Pour obtenir des informations sur les outils de surveillance fournis par SageMaker, veuillez consulter Surveillez les AWS ressources mises en service lors de l'utilisation d'Amazon SageMaker.
Utilisation de métriques pour contrôler des modèles multi-conteneur
Pour contrôler les modèles multi-conteneurs dans les pipelines d'inférence, utilisez Amazon CloudWatch. CloudWatch collecte les données brutes et les convertit en métriques lisibles en quasi-temps réel. Les points de terminaison et les tâches d'entraînement SageMaker écrivent les métriques et les journaux CloudWatch dans l'espace de noms AWS/SageMaker
.
Les tableaux suivants répertorient les métriques et les dimensions pour les éléments suivants :
-
Appels de point de terminaison
-
Tâches d'entraînement, tâches de transformation par lots et instances de point de terminaison
Une dimension est une paire nom-valeur qui identifie de manière unique une métrique. Vous pouvez associer jusqu'à 10 dimensions à une métrique. Pour plus d'informations sur la surveillance avec CloudWatch, veuillez consulter Surveillez Amazon SageMaker avec Amazon CloudWatch.
Endpoint Invocation Metrics (Métriques d'appel de point de terminaison)
L'espace de noms AWS/SageMaker
inclut les métriques de demandes suivantes depuis les appels vers InvokeEndpoint
.
Les métriques sont présentées à des intervalles d'une minute.
Métrique | Description |
---|---|
Invocation4XXErrors |
Nombre de demandes Unités : aucune Statistiques valides : |
Invocation5XXErrors |
Nombre de demandes Unités : aucune Statistiques valides : |
Invocations |
Les requêtes Pour obtenir le nombre total de demandes envoyées à un point de terminaison de modèle, utilisez la statistique Unités : aucune Statistiques valides : |
InvocationsPerInstance |
Le nombre d'appels de points de terminaison envoyés à un modèle, normalisé par Unités : aucune Statistiques valides : |
ModelLatency |
Temps qu'il a fallu au(x) modèle(s) pour répondre. Cela inclut le temps qu'il a fallu pour envoyer la demande, pour récupérer la réponse à partir du conteneur de modèles et pour terminer l'inférence dans le conteneur. ModelLatency est le temps total qu'il a fallu à tous les conteneurs dans un pipeline d'inférence.Unités : microsecondes Statistiques valides : |
OverheadLatency |
Temps venant s'ajouter au temps nécessaire pour répondre à une demande client par SageMaker pour le surdébit. Unités : microsecondes Statistiques valides : |
ContainerLatency |
Temps nécessaire à un conteneur de pipelines d'inférence pour répondre lors de son affichage à partir de SageMaker. ContainerLatency inclut le temps qu'il a fallu pour envoyer la demande, récupérer la réponse à partir du conteneur du modèle et accomplir l'inférence dans le conteneur.Unités : microsecondes Statistiques valides : |
Dimensions for Endpoint Invocation Metrics (Dimensions des métriques d'appel de point de terminaison)
Dimension | Description |
---|---|
EndpointName, VariantName, ContainerName |
Filtres des métriques d'appel de point de terminaison pour un objet |
Pour un point de terminaison de pipeline d'inférence, CloudWatch répertorie les métriques de latence par conteneur dans votre compte en tant que Endpoint Container Metrics (Métriques de conteneur de point de terminaison) et Endpoint Variant Metrics (Métriques de variante de point de terminaison) dans l'espace de noms SageMaker, comme suit. La métrique ContainerLatency
apparaît uniquement pour les pipelines d'inférence.
Pour chaque point de terminaison et chaque conteneur, les métriques de latence affichent les noms du conteneur, du point de terminaison, de la variante et de la métrique.
Métriques de tâches d'entraînement, de tâches de transformation par lots et d'instances de point de terminaison
Les espaces de noms /aws/sagemaker/TrainingJobs
, /aws/sagemaker/TransformJobs
et /aws/sagemaker/Endpoints
incluent les métriques suivantes pour les tâches d'entraînement et les instances de point de terminaison.
Les métriques sont présentées à des intervalles d'une minute.
Métrique | Description |
---|---|
CPUUtilization |
Pourcentage d'unités UC utilisées par les conteneurs qui s'exécutent sur une instance. La valeur s'étend de 0 % à 100 % et elle est multipliée par le nombre de processeurs. Par exemple, s'il y a quatre processeurs, Pour des tâches d'entraînement, Pour les tâches de transformation par lots, Pour les modèles à plusieurs conteneurs, Pour les variantes de point de terminaison, Unités : pourcentage |
MemoryUtilization |
Pourcentage de mémoire utilisée par les conteneurs en cours d'exécution sur une instance. Cette valeur est comprise entre 0 % et 100 %. Pour les tâches d'entraînement, Pour les tâches de transformation par lots, MemoryUtilization est la somme de la mémoire utilisée par tous les conteneurs en cours d'exécution sur l'instance.Pour les variantes de point de terminaison, Unités : pourcentage |
GPUUtilization |
Pourcentage d'unités GPU qui sont utilisées par les conteneurs en cours d'exécution sur une instance. Pour les tâches d'entraînement, Pour les tâches de transformation par lots, Pour les modèles à plusieurs conteneurs, Pour les variantes de point de terminaison, Unités : pourcentage |
GPUMemoryUtilization |
Pourcentage de mémoire GPU utilisée par les conteneurs en cours d'exécution sur une instance. GPUMemoryUtilization s'étend de 0 % à 100 % et est multiplié par le nombre de processeurs graphiques. Par exemple, s'il y a quatre unités GPU, Pour les tâches d'entraînement, Pour les tâches de transformation par lots, Pour les modèles à plusieurs conteneurs, Pour les variantes de point de terminaison, Unités : pourcentage |
DiskUtilization |
Pourcentage d'espace disque utilisé par les conteneurs en cours d'exécution sur une instance. DiskUtilization s'étend de 0 % à 100 %. Cette métrique n'est pas prise en charge pour les tâches de transformation par lots. Pour les tâches d'entraînement, Pour les variantes de point de terminaison, Unités : pourcentage |
Dimensions des métriques de tâches d'entraînement, de tâches de transformation par lots et d'instances de point de terminaison
Dimension | Description |
---|---|
Host |
Pour les tâches d'entraînement, Pour les tâches de transformation par lots, Pour les points de terminaison, |
Pour vous aider à déboguer vos tâches d'entraînement, points de terminaison et configurations de cycle de vie d'instance de bloc-notes, SageMaker envoie également à Amazon CloudWatch logs tout ce qu'un conteneur d'algorithme un conteneur de modèle ou une configuration de cycle de vie d'instance de bloc-notes envoie à stdout
ou stderr
. Vous pouvez utiliser ces informations pour le débogage et pour analyser la progression.
Utilisation des journaux pour contrôler un pipeline d'inférence
Le tableau suivant répertorie les groupes de journaux et les flux de journaux que SageMaker envoie à Amazon CloudWatch
Un flux de journaux est une séquence d'événements de journaux qui partagent la même source. Chaque source distincte de journaux dans CloudWatch constitue un flux de journaux distinct. Un groupe de journaux est un groupe de flux de journaux qui partagent les mêmes paramètres de conservation, de surveillance et de contrôle d'accès.
Journaux
Nom du groupe de journaux | Nom du flux de journaux |
---|---|
/aws/sagemaker/TrainingJobs |
|
/aws/sagemaker/Endpoints/[EndpointName] |
|
|
|
|
|
/aws/sagemaker/NotebookInstances |
|
/aws/sagemaker/TransformJobs |
|
|
|
|
Note
SageMaker crée le groupe de journaux /aws/sagemaker/NotebookInstances
lorsque vous créez une instance de bloc-notes avec une configuration de cycle de vie. Pour de plus amples informations, veuillez consulter Personnalisation d'une instance de bloc-notes à l'aide d'un script de configuration du cycle de vie.
Pour de plus amples informations sur la journalisation SageMaker, veuillez consulter Enregistrez les SageMaker événements Amazon avec Amazon CloudWatch.