Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
États d'exécution des tâches AWS Glue dans la console
Vous pouvez consulter l'état d'une tâche d'AWS Glueextraction, de transformation et de chargement (ETL) pendant son exécution ou après son arrêt. Vous pouvez afficher l'état à l'aide de la console AWS Glue. Pour de plus amples informations sur les états d'exécution des tâches, consultez Statuts d'exécution de la tâche AWS Glue.
Accès au tableau de bord de surveillance de tâche
Vous accédez au tableau de bord de surveillance des tâches en cliquant sur le lien de surveillance de l'exécution des tâches dans le volet de AWS Glue navigation sous les ETLtâches.
Présentation du tableau de bord de surveillance de tâche
Le tableau de bord de surveillance de tâche fournit un récapitulatif global des exécutions de tâches, avec des totaux pour les tâches dont le statut est Running (En cours d'exécution), Canceled (Annulé), Success (Succès), ou Failed (Échec). Des vignettes supplémentaires fournissent le taux de réussite global des tâches, l'DPUutilisation estimée des tâches, une ventilation du nombre d'états des tâches par type de tâche, type de travailleur et par jour.
Les graphiques dans les vignettes sont interactifs. Vous pouvez choisir n'importe quel bloc d'un graphique pour exécuter un filtre qui affiche uniquement ces tâches dans le tableau Job runs (Exécutions de tâche) au bas de la page.
Vous pouvez modifier la plage de dates des informations affichées sur cette page à l'aide du sélecteur Date range (Plage de dates). Lorsque vous modifiez la plage de dates, les vignettes d'informations s'ajustent pour afficher les valeurs du nombre de jours spécifié avant la date actuelle. Vous pouvez également utiliser une plage de dates spécifique si vous sélectionnez Custom (Personnalisée) à partir du sélecteur de plage de dates.
Vue des exécutions de tâche
Note
L'historique d'exécution des tâches est accessible pendant 90 jours pour votre flux de travail et l'exécution des tâches.
La liste des ressources Job runs (Exécutions de tâche) affiche les tâches pour la plage de dates et les filtres spécifiés.
Vous pouvez filtrer les tâches en fonction de critères supplémentaires, tels que le statut, le type d'employé, le type de tâche et le nom de la tâche. Dans la zone de filtre située en haut du tableau, vous pouvez saisir le texte à utiliser comme filtre. Les résultats du tableau sont mis à jour avec des lignes qui contiennent du texte correspondant lorsque vous saisissez le texte.
Vous pouvez afficher un sous-ensemble des tâches en choisissant des éléments dans les graphiques du tableau de bord de surveillance de tâche. Par exemple, si vous choisissez le nombre de tâches en cours d'exécution dans la liste Job runs summary (Résumé des exécutions de tâches), la vignette Job runs (Exécutions de tâche) affiche uniquement les tâches dont le statut est actuellement Running
. Si vous choisissez l'une des barres du diagramme à barres Worker type breakdown (Répartition par type d'employé), seules les exécutions de tâche dont le type et le statut d'employé correspondent sont affichées dans la liste Job runs (Exécutions de tâche).
La liste de ressources Job runs (Exécutions de tâche) affiche les détails des exécutions de tâche. Vous pouvez trier les lignes du tableau en choisissant un en-tête de colonne. Le tableau contient les informations suivantes :
Propriété | Description |
---|---|
Nom de la tâche | Nom de la tâche . |
Type |
Le type d'environnement de la tâche :
|
L'heure de début |
Date et heure auxquelles cette exécution de tâche a démarré. |
L'heure de fin |
Date et heure auxquelles cette exécution de tâche s'est terminée. |
Statut de l'exécution |
État actuel de l'exécution de tâche. Les valeurs peuvent être :
|
Durée de l'exécution | Le temps pendant lequel l'exécution de la tâche a consommé des ressources. |
Capacité |
Nombre d'unités de traitement de AWS Glue données (DPUs) allouées pour cette exécution de tâche. Pour plus d'informations sur la planification des capacités, consultez la section Surveillance de la planification des DPU capacités dans le guide du AWS Glue développeur. |
Type d'employé |
Type d'employé prédéfini qui est alloué lorsqu'une tâche est exécutée. Les valeurs peuvent être
|
DPUheures |
Nombre estimé d'unités DPUs utilisées pour l'exécution de la tâche. A DPU est une mesure relative de la puissance de traitement. DPUssont utilisés pour déterminer le coût de fonctionnement de votre travail. Pour plus d'informations, consultez la page de tarification AWS Glue |
Vous pouvez sélectionner n'importe quelle exécution de tâche dans la liste et afficher des informations supplémentaires. Choisissez une exécution de tâche, puis procédez comme suit :
-
Sélectionnez le menu Actions, puis l'option View job (Voir la tâche) pour afficher la tâche dans l'éditeur visuel.
-
Sélectionnez le menu Actions, puis l'option Stop run (Arrêter l'exécution) pour arrêter l'exécution de la tâche en cours.
-
Cliquez sur le bouton Afficher CloudWatch les journaux pour afficher les journaux d'exécution du travail correspondant à ce travail.
-
Choisissez Afficher les détails pour afficher la page des détails de l'exécution de la tâche.
Afficher les journaux d'exécution de la tâche
Vous pouvez afficher les journaux des tâches de diverses manières :
-
Sur la page Surveillance, dans le tableau Exécutions de tâches, choisissez une exécution de tâche, puis choisissez Afficher CloudWatch les journaux.
-
Dans l'éditeur de tâches visuel, dans l'onglet Runs (Exécutions) d'une tâche, sélectionnez les liens hypertextes pour afficher les journaux :
-
Logs (Journaux) Liens vers les journaux de tâche Apache Spark écrits lorsque la journalisation continue est activée pour une exécution de tâche. Lorsque vous cliquez sur ce lien, vous accédez aux Amazon CloudWatch journaux du groupe de
/aws-glue/jobs/logs-v2
journaux. Par défaut, les journaux excluent les messages inutiles relatifs au YARN rythme cardiaque d'Apache Hadoop et au journal du pilote ou de l'exécuteur Apache Spark. Pour plus d'informations sur la journalisation continue, veuillez consulter la rubrique Journalisation continue pour les tâches AWS Glue dans le Guide du développeur AWS Glue. -
Error logs (Journaux d'erreur) — Liens vers les journaux écrits dans
stderr
pour cette exécution de tâche. Lorsque vous sélectionnez ce lien, vous accédez aux journaux Amazon CloudWatch dans le groupe de journalisation/aws-glue/jobs/error
. Vous pouvez utiliser ces journaux pour afficher les détails de toutes les erreurs rencontrées pendant l'exécution de la tâche. -
Output logs (Journaux de sortie) — Liens vers les journaux écrits dans
stdout
pour cette exécution de tâche. Lorsque vous sélectionnez ce lien, vous accédez aux journaux Amazon CloudWatch dans le groupe de journalisation/aws-glue/jobs/output
. De là, vous pouvez afficher les détails sur les tables qui ont été créées dans AWS Glue Data Catalog et les erreurs qui ont été détectées.
-
Affichage des détails d'une exécution de tâche
Vous pouvez choisir une tâche dans la liste Job runs (Exécutions de tâche) sur la page Monitoring (Surveillance), puis choisir View run details (Afficher les détails de l'exécution) pour afficher des informations détaillées sur cette exécution de tâche.
Les informations affichées sur la page de détails de l'exécution de la tâche comprennent :
Propriété | Description |
---|---|
Nom de la tâche | Nom de la tâche . |
Statut de l'exécution |
État actuel de l'exécution de tâche. Les valeurs peuvent être :
|
Version Glue | La version AWS Glue utilisée par l'exécution de la tâche. |
Tentative récente | Le nombre de tentatives automatiques de relance pour cette exécution de tâche. |
L'heure de début |
Date et heure auxquelles cette exécution de tâche a démarré. |
L'heure de fin |
Date et heure auxquelles cette exécution de tâche s'est terminée. |
L'heure de début |
Le temps consacré à la préparation de la tâche. |
Durée d’exécution |
Le temps consacré à l'exécution du script de tâche. |
Nom du déclencheur |
Le nom du déclencheur associé à la tâche. |
L'heure de dernière modification |
La date de dernière modification de la tâche. |
Configuration de la sécurité |
La configuration de sécurité de la tâche, qui inclut le chiffrement Amazon S3, le chiffrement et les paramètres de CloudWatch chiffrement des signets de tâches. |
Expiration | La valeur seuil du délai d'exécution de la tâche. |
Capacité allouée |
Nombre d'unités de traitement de AWS Glue données (DPUs) allouées pour cette exécution de tâche. Pour plus d'informations sur la planification des capacités, consultez la section Surveillance de la planification des DPU capacités dans le guide du AWS Glue développeur. |
Capacité max. |
Capacité maximale disponible pour l'exécution de la tâche. |
Nombre d'employés | Le nombre de travailleurs utilisés pour l'exécution de la tâche. |
Type d'employé |
Type d'employés prédéfinis alloués à l'exécution de la tâche. Les valeurs peuvent être
|
Journaux | Un lien vers les journaux de tâches pour la journalisation continue (/aws-glue/jobs/logs-v2 ). |
Journaux de sortie | Un lien vers les fichiers journaux de sortie de la tâche (/aws-glue/jobs/output ). |
Journaux des erreurs | Un lien vers les fichiers de journalisation des erreurs de la tâche (/aws-glue/jobs/error ). |
Vous pouvez également afficher les éléments supplémentaires suivants, qui sont disponibles lorsque vous affichez les informations relatives aux exécutions de tâches récentes. Pour de plus amples informations, veuillez consulter Afficher les informations sur les exécutions de tâche récentes.
Arguments d'entrée
Journaux continus
Métriques : vous pouvez consulter des vues des métriques de base. Pour plus d’informations sur les métriques fournies, consultez Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Spark.
Interface utilisateur Spark : vous pouvez visualiser les journaux Spark relatifs à votre tâche dans l’interface utilisateur Spark. Pour plus d’informations sur l'utilisation de l'interface utilisateur web Spark, consultez Surveillance des tâches à l'aide de l'interface utilisateur web Apache Spark. Activez cette fonctionnalité en suivant la procédure présentée dans Activation de l'interface utilisateur web Apache Spark pour les tâches AWS Glue.
Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Spark
Sur la page de détails d'une exécution de tâche, sous la section Détails de l'exécution, vous pouvez consulter les statistiques de la tâche. AWS Glue Studioenvoie des métriques de tâche Amazon CloudWatch pour chaque exécution de tâche.
AWS Glue rapporte les métriques Amazon CloudWatch toutes les 30 secondes. Les métriques AWS Glue représentent des valeurs delta des valeurs précédemment rapportées. Le cas échéant, les tableaux de bord de métriques regroupent (additionnent) les valeurs de plages de 30 secondes pour obtenir une valeur pour la totalité de la dernière minute. Toutefois, les métriques d'Apache AWS Glue Spark transmises à Amazon CloudWatch sont généralement des valeurs absolues qui représentent l'état actuel au moment où elles sont signalées.
Note
Vous devez configurer votre compte pour accéder à Amazon CloudWatch,.
Les métriques fournissent des informations sur votre exécution de tâche, telles que :
-
ETLDéplacement des données : nombre d'octets lus ou écrits sur Amazon S3.
-
Profil de mémoire : segment de mémoire utilisé — Nombre d'octets de mémoire utilisés par le segment de mémoire utilisé par le segment de mémoire de la machine virtuelle Java (JVM).
-
Profil de mémoire : utilisation du tas — Fraction de mémoire (échelle : 0 à 1), exprimée en pourcentage, utilisée par le tas. JVM
-
CPUCharge : fraction de la charge CPU système utilisée (échelle : 0 à 1), exprimée en pourcentage.
Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Ray
Sur la page de détails d'une exécution de tâche, sous la section Détails de l'exécution, vous pouvez consulter les statistiques de la tâche. AWS Glue Studioenvoie des métriques de tâche Amazon CloudWatch pour chaque exécution de tâche.
AWS Glue rapporte les métriques Amazon CloudWatch toutes les 30 secondes. Les métriques AWS Glue représentent des valeurs delta des valeurs précédemment rapportées. Le cas échéant, les tableaux de bord de métriques regroupent (additionnent) les valeurs de plages de 30 secondes pour obtenir une valeur pour la totalité de la dernière minute. Toutefois, les métriques d'Apache AWS Glue Spark transmises à Amazon CloudWatch sont généralement des valeurs absolues qui représentent l'état actuel au moment où elles sont signalées.
Note
Vous devez configurer votre compte pour y accéder Amazon CloudWatch, comme décrit dans.
Dans tâches Ray, vous pouvez afficher les graphiques de métriques agrégés suivants. Vous pouvez ainsi créer un profil de votre cluster et de vos tâches, ainsi qu'accéder à des informations détaillées sur chaque nœud. Les données des séries chronologiques qui soutiennent ces graphiques sont disponibles CloudWatch pour une analyse plus approfondie.
- Profil de tâche : statut de la tâche
-
Indique le nombre de tâches Ray dans le système. Chaque cycle de vie d'une tâche se voit attribuer sa propre série temporelle.
- Profil de tâche : nom de la tâche
-
Indique le nombre de tâches Ray dans le système. Seules les tâches en attente et actives sont affichées. Chaque type de tâche (par son nom) se voit attribuer sa propre série temporelle.
- Profil du cluster : CPUs en cours d'utilisation
-
Indique le nombre de CPU cœurs utilisés. Chaque nœud se voit attribuer sa propre série temporelle. Les nœuds sont identifiés par des adresses IP, qui sont éphémères et ne servent qu'à l'identification.
- Profil du cluster : utilisation de la mémoire du magasin d'objets
-
Indique l'utilisation de la mémoire par le cache d'objets Ray. Chaque emplacement de mémoire (mémoire physique, mémoire mise en cache sur disque et déversée dans Amazon S3) reçoit sa propre série temporelle. Le magasin d'objets gère le stockage de données sur tous les nœuds du cluster. Pour en savoir plus, consultez Objects
dans la documentation Ray. - Profil du cluster : nombre de nœuds
-
Affiche le nombre de nœuds provisionnés pour le cluster.
- Détail du nœud : CPU utilisation
-
Indique le CPU taux d'utilisation de chaque nœud sous forme de pourcentage. Chaque série indique un pourcentage agrégé d'CPUutilisation sur tous les cœurs du nœud.
- Détail du nœud : utilisation de la mémoire
-
Affiche l'utilisation de la mémoire sur chaque nœud en Go. Chaque série montre la mémoire agrégée entre tous les processus du nœud, y compris les tâches Ray et le processus de stockage Plasma. Cela ne reflète pas les objets stockés sur le disque ou déversés sur Amazon S3.
- Détail du nœud : utilisation du disque
-
Affiche l'utilisation du disque sur chaque nœud en Go.
- Détail du nœud : vitesse d'E/S du disque
-
Affiche les E/S du disque sur chaque nœud en Ko/s.
- Détail du nœud : débit d'E/S du réseau
-
Affiche les E/S du réseau sur chaque nœud en Ko/s.
- Détail du nœud : CPU utilisation par le composant Ray
-
Montre CPU l'utilisation en fractions de noyau. Chaque composant Ray sur chaque nœud se voit attribuer sa propre série temporelle.
- Détail du nœud : utilisation de la mémoire par le composant Ray
-
Affiche l'utilisation de la mémoire en Gio. Chaque composant Ray sur chaque nœud se voit attribuer sa propre série temporelle.