États d'exécution des tâches AWS Glue dans la console - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

États d'exécution des tâches AWS Glue dans la console

Vous pouvez consulter l'état d'une tâche d'AWS Glueextraction, de transformation et de chargement (ETL) pendant son exécution ou après son arrêt. Vous pouvez afficher l'état à l'aide de la console AWS Glue. Pour de plus amples informations sur les états d'exécution des tâches, consultez Statuts d'exécution de la tâche AWS Glue.

Accès au tableau de bord de surveillance de tâche

Vous accédez au tableau de bord de surveillance des tâches en cliquant sur le lien de surveillance de l'exécution des tâches dans le volet de AWS Glue navigation sous les ETLtâches.

Présentation du tableau de bord de surveillance de tâche

Le tableau de bord de surveillance de tâche fournit un récapitulatif global des exécutions de tâches, avec des totaux pour les tâches dont le statut est Running (En cours d'exécution), Canceled (Annulé), Success (Succès), ou Failed (Échec). Des vignettes supplémentaires fournissent le taux de réussite global des tâches, l'DPUutilisation estimée des tâches, une ventilation du nombre d'états des tâches par type de tâche, type de travailleur et par jour.

Les graphiques dans les vignettes sont interactifs. Vous pouvez choisir n'importe quel bloc d'un graphique pour exécuter un filtre qui affiche uniquement ces tâches dans le tableau Job runs (Exécutions de tâche) au bas de la page.

Vous pouvez modifier la plage de dates des informations affichées sur cette page à l'aide du sélecteur Date range (Plage de dates). Lorsque vous modifiez la plage de dates, les vignettes d'informations s'ajustent pour afficher les valeurs du nombre de jours spécifié avant la date actuelle. Vous pouvez également utiliser une plage de dates spécifique si vous sélectionnez Custom (Personnalisée) à partir du sélecteur de plage de dates.

Vue des exécutions de tâche

Note

L'historique d'exécution des tâches est accessible pendant 90 jours pour votre flux de travail et l'exécution des tâches.

La liste des ressources Job runs (Exécutions de tâche) affiche les tâches pour la plage de dates et les filtres spécifiés.

Vous pouvez filtrer les tâches en fonction de critères supplémentaires, tels que le statut, le type d'employé, le type de tâche et le nom de la tâche. Dans la zone de filtre située en haut du tableau, vous pouvez saisir le texte à utiliser comme filtre. Les résultats du tableau sont mis à jour avec des lignes qui contiennent du texte correspondant lorsque vous saisissez le texte.

Vous pouvez afficher un sous-ensemble des tâches en choisissant des éléments dans les graphiques du tableau de bord de surveillance de tâche. Par exemple, si vous choisissez le nombre de tâches en cours d'exécution dans la liste Job runs summary (Résumé des exécutions de tâches), la vignette Job runs (Exécutions de tâche) affiche uniquement les tâches dont le statut est actuellement Running. Si vous choisissez l'une des barres du diagramme à barres Worker type breakdown (Répartition par type d'employé), seules les exécutions de tâche dont le type et le statut d'employé correspondent sont affichées dans la liste Job runs (Exécutions de tâche).

La liste de ressources Job runs (Exécutions de tâche) affiche les détails des exécutions de tâche. Vous pouvez trier les lignes du tableau en choisissant un en-tête de colonne. Le tableau contient les informations suivantes :

Propriété Description
Nom de la tâche Nom de la tâche .
Type

Le type d'environnement de la tâche :

  • Glue ETL : s'exécute dans un environnement Apache Spark géré parAWS Glue.

  • Glue Streaming : s'exécute dans un environnement Apache Spark et fonctionne ETL sur les flux de données.

  • Shell Python : exécute les scripts Python en tant que shell.

L'heure de début

Date et heure auxquelles cette exécution de tâche a démarré.

L'heure de fin

Date et heure auxquelles cette exécution de tâche s'est terminée.

Statut de l'exécution

État actuel de l'exécution de tâche. Les valeurs peuvent être :

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Durée de l'exécution Le temps pendant lequel l'exécution de la tâche a consommé des ressources.
Capacité

Nombre d'unités de traitement de AWS Glue données (DPUs) allouées pour cette exécution de tâche. Pour plus d'informations sur la planification des capacités, consultez la section Surveillance de la planification des DPU capacités dans le guide du AWS Glue développeur.

Type d'employé

Type d'employé prédéfini qui est alloué lorsqu'une tâche est exécutée. Les valeurs peuvent être G.1X, G.2X, G.4X ou G.8X.

  • G.1X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur est mappé sur 1 DPU (4vCPUs, 16 Go de mémoire) avec un disque de 84 Go (environ 34 Go libres). Nous vous recommandons ce type d'employé pour les tâches utilisant beaucoup de mémoire. C'est la valeur Type d'employé par défaut pour les tâches AWS Glue de version 2.0 ou ultérieure.

  • G.2X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur est mappé sur 2 DPU (8vCPUs, 32 Go de mémoire) avec un disque de 128 Go (environ 77 Go gratuits). Nous vous recommandons ce type d'employé pour des tâches qui requiert beaucoup de mémoire et des tâches qui effectuent des transformations Machine Learning.

  • G.4X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur correspond à 4 DPU (16 ou vCPUs 64 Go de mémoire) sur un disque de 256 Go (environ 235 Go libres). Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de collaborateur n'est disponible que pour les ETL jobs Spark AWS Glue version 3.0 ou ultérieure dans les AWS régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande) et Europe (Stockholm).

  • G.8X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur en mappe jusqu'à 8 DPU (32vCPUs, 128 Go de mémoire) sur un disque de 512 Go (environ 487 Go gratuits). Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les ETL tâches Spark AWS Glue version 3.0 ou ultérieure, dans les mêmes AWS régions que celles prises en charge pour le type de G.4X travailleur.

DPUheures

Nombre estimé d'unités DPUs utilisées pour l'exécution de la tâche. A DPU est une mesure relative de la puissance de traitement. DPUssont utilisés pour déterminer le coût de fonctionnement de votre travail. Pour plus d'informations, consultez la page de tarification AWS Glue.

Vous pouvez sélectionner n'importe quelle exécution de tâche dans la liste et afficher des informations supplémentaires. Choisissez une exécution de tâche, puis procédez comme suit :

  • Sélectionnez le menu Actions, puis l'option View job (Voir la tâche) pour afficher la tâche dans l'éditeur visuel.

  • Sélectionnez le menu Actions, puis l'option Stop run (Arrêter l'exécution) pour arrêter l'exécution de la tâche en cours.

  • Cliquez sur le bouton Afficher CloudWatch les journaux pour afficher les journaux d'exécution du travail correspondant à ce travail.

  • Choisissez Afficher les détails pour afficher la page des détails de l'exécution de la tâche.

Afficher les journaux d'exécution de la tâche

Vous pouvez afficher les journaux des tâches de diverses manières :

  • Sur la page Surveillance, dans le tableau Exécutions de tâches, choisissez une exécution de tâche, puis choisissez Afficher CloudWatch les journaux.

  • Dans l'éditeur de tâches visuel, dans l'onglet Runs (Exécutions) d'une tâche, sélectionnez les liens hypertextes pour afficher les journaux :

    • Logs (Journaux) Liens vers les journaux de tâche Apache Spark écrits lorsque la journalisation continue est activée pour une exécution de tâche. Lorsque vous cliquez sur ce lien, vous accédez aux Amazon CloudWatch journaux du groupe de /aws-glue/jobs/logs-v2 journaux. Par défaut, les journaux excluent les messages inutiles relatifs au YARN rythme cardiaque d'Apache Hadoop et au journal du pilote ou de l'exécuteur Apache Spark. Pour plus d'informations sur la journalisation continue, veuillez consulter la rubrique Journalisation continue pour les tâches AWS Glue dans le Guide du développeur AWS Glue.

    • Error logs (Journaux d'erreur) — Liens vers les journaux écrits dans stderr pour cette exécution de tâche. Lorsque vous sélectionnez ce lien, vous accédez aux journaux Amazon CloudWatch dans le groupe de journalisation /aws-glue/jobs/error. Vous pouvez utiliser ces journaux pour afficher les détails de toutes les erreurs rencontrées pendant l'exécution de la tâche.

    • Output logs (Journaux de sortie) — Liens vers les journaux écrits dans stdout pour cette exécution de tâche. Lorsque vous sélectionnez ce lien, vous accédez aux journaux Amazon CloudWatch dans le groupe de journalisation /aws-glue/jobs/output. De là, vous pouvez afficher les détails sur les tables qui ont été créées dans AWS Glue Data Catalog et les erreurs qui ont été détectées.

Affichage des détails d'une exécution de tâche

Vous pouvez choisir une tâche dans la liste Job runs (Exécutions de tâche) sur la page Monitoring (Surveillance), puis choisir View run details (Afficher les détails de l'exécution) pour afficher des informations détaillées sur cette exécution de tâche.

Les informations affichées sur la page de détails de l'exécution de la tâche comprennent :

Propriété Description
Nom de la tâche Nom de la tâche .
Statut de l'exécution

État actuel de l'exécution de tâche. Les valeurs peuvent être :

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Version Glue La version AWS Glue utilisée par l'exécution de la tâche.
Tentative récente Le nombre de tentatives automatiques de relance pour cette exécution de tâche.
L'heure de début

Date et heure auxquelles cette exécution de tâche a démarré.

L'heure de fin

Date et heure auxquelles cette exécution de tâche s'est terminée.

L'heure de début

Le temps consacré à la préparation de la tâche.

Durée d’exécution

Le temps consacré à l'exécution du script de tâche.

Nom du déclencheur

Le nom du déclencheur associé à la tâche.

L'heure de dernière modification

La date de dernière modification de la tâche.

Configuration de la sécurité

La configuration de sécurité de la tâche, qui inclut le chiffrement Amazon S3, le chiffrement et les paramètres de CloudWatch chiffrement des signets de tâches.

Expiration La valeur seuil du délai d'exécution de la tâche.
Capacité allouée

Nombre d'unités de traitement de AWS Glue données (DPUs) allouées pour cette exécution de tâche. Pour plus d'informations sur la planification des capacités, consultez la section Surveillance de la planification des DPU capacités dans le guide du AWS Glue développeur.

Capacité max.

Capacité maximale disponible pour l'exécution de la tâche.

Nombre d'employés Le nombre de travailleurs utilisés pour l'exécution de la tâche.
Type d'employé

Type d'employés prédéfinis alloués à l'exécution de la tâche. Les valeurs peuvent être G.1X ou G.2X.

  • G.1X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque travailleur est mappé sur 1 DPU (4vCPUs, 16 Go de mémoire, 64 Go de disque) et fournit 1 exécuteur par travailleur. Nous vous recommandons ce type d'employé pour les tâches utilisant beaucoup de mémoire. C'est la valeur Type d'employé par défaut pour les tâches AWS Glue de version 2.0 ou ultérieure.

  • G.2X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque travailleur est mappé sur 2 DPUs (8vCPUs, 32 Go de mémoire, 128 Go de disque) et fournit 1 exécuteur par travailleur. Nous vous recommandons ce type d'employé pour des tâches qui requiert beaucoup de mémoire et des tâches qui effectuent des transformations Machine Learning.

Journaux Un lien vers les journaux de tâches pour la journalisation continue (/aws-glue/jobs/logs-v2).
Journaux de sortie Un lien vers les fichiers journaux de sortie de la tâche (/aws-glue/jobs/output).
Journaux des erreurs Un lien vers les fichiers de journalisation des erreurs de la tâche (/aws-glue/jobs/error).

Vous pouvez également afficher les éléments supplémentaires suivants, qui sont disponibles lorsque vous affichez les informations relatives aux exécutions de tâches récentes. Pour de plus amples informations, veuillez consulter Afficher les informations sur les exécutions de tâche récentes.

Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Spark

Sur la page de détails d'une exécution de tâche, sous la section Détails de l'exécution, vous pouvez consulter les statistiques de la tâche. AWS Glue Studioenvoie des métriques de tâche Amazon CloudWatch pour chaque exécution de tâche.

AWS Glue rapporte les métriques Amazon CloudWatch toutes les 30 secondes. Les métriques AWS Glue représentent des valeurs delta des valeurs précédemment rapportées. Le cas échéant, les tableaux de bord de métriques regroupent (additionnent) les valeurs de plages de 30 secondes pour obtenir une valeur pour la totalité de la dernière minute. Toutefois, les métriques d'Apache AWS Glue Spark transmises à Amazon CloudWatch sont généralement des valeurs absolues qui représentent l'état actuel au moment où elles sont signalées.

Note

Vous devez configurer votre compte pour accéder à Amazon CloudWatch,.

Les métriques fournissent des informations sur votre exécution de tâche, telles que :

  • ETLDéplacement des données : nombre d'octets lus ou écrits sur Amazon S3.

  • Profil de mémoire : segment de mémoire utilisé — Nombre d'octets de mémoire utilisés par le segment de mémoire utilisé par le segment de mémoire de la machine virtuelle Java (JVM).

  • Profil de mémoire : utilisation du tas — Fraction de mémoire (échelle : 0 à 1), exprimée en pourcentage, utilisée par le tas. JVM

  • CPUCharge : fraction de la charge CPU système utilisée (échelle : 0 à 1), exprimée en pourcentage.

Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Ray

Sur la page de détails d'une exécution de tâche, sous la section Détails de l'exécution, vous pouvez consulter les statistiques de la tâche. AWS Glue Studioenvoie des métriques de tâche Amazon CloudWatch pour chaque exécution de tâche.

AWS Glue rapporte les métriques Amazon CloudWatch toutes les 30 secondes. Les métriques AWS Glue représentent des valeurs delta des valeurs précédemment rapportées. Le cas échéant, les tableaux de bord de métriques regroupent (additionnent) les valeurs de plages de 30 secondes pour obtenir une valeur pour la totalité de la dernière minute. Toutefois, les métriques d'Apache AWS Glue Spark transmises à Amazon CloudWatch sont généralement des valeurs absolues qui représentent l'état actuel au moment où elles sont signalées.

Note

Vous devez configurer votre compte pour y accéder Amazon CloudWatch, comme décrit dans.

Dans tâches Ray, vous pouvez afficher les graphiques de métriques agrégés suivants. Vous pouvez ainsi créer un profil de votre cluster et de vos tâches, ainsi qu'accéder à des informations détaillées sur chaque nœud. Les données des séries chronologiques qui soutiennent ces graphiques sont disponibles CloudWatch pour une analyse plus approfondie.

Profil de tâche : statut de la tâche

Indique le nombre de tâches Ray dans le système. Chaque cycle de vie d'une tâche se voit attribuer sa propre série temporelle.

Profil de tâche : nom de la tâche

Indique le nombre de tâches Ray dans le système. Seules les tâches en attente et actives sont affichées. Chaque type de tâche (par son nom) se voit attribuer sa propre série temporelle.

Profil du cluster : CPUs en cours d'utilisation

Indique le nombre de CPU cœurs utilisés. Chaque nœud se voit attribuer sa propre série temporelle. Les nœuds sont identifiés par des adresses IP, qui sont éphémères et ne servent qu'à l'identification.

Profil du cluster : utilisation de la mémoire du magasin d'objets

Indique l'utilisation de la mémoire par le cache d'objets Ray. Chaque emplacement de mémoire (mémoire physique, mémoire mise en cache sur disque et déversée dans Amazon S3) reçoit sa propre série temporelle. Le magasin d'objets gère le stockage de données sur tous les nœuds du cluster. Pour en savoir plus, consultez Objects dans la documentation Ray.

Profil du cluster : nombre de nœuds

Affiche le nombre de nœuds provisionnés pour le cluster.

Détail du nœud : CPU utilisation

Indique le CPU taux d'utilisation de chaque nœud sous forme de pourcentage. Chaque série indique un pourcentage agrégé d'CPUutilisation sur tous les cœurs du nœud.

Détail du nœud : utilisation de la mémoire

Affiche l'utilisation de la mémoire sur chaque nœud en Go. Chaque série montre la mémoire agrégée entre tous les processus du nœud, y compris les tâches Ray et le processus de stockage Plasma. Cela ne reflète pas les objets stockés sur le disque ou déversés sur Amazon S3.

Détail du nœud : utilisation du disque

Affiche l'utilisation du disque sur chaque nœud en Go.

Détail du nœud : vitesse d'E/S du disque

Affiche les E/S du disque sur chaque nœud en Ko/s.

Détail du nœud : débit d'E/S du réseau

Affiche les E/S du réseau sur chaque nœud en Ko/s.

Détail du nœud : CPU utilisation par le composant Ray

Montre CPU l'utilisation en fractions de noyau. Chaque composant Ray sur chaque nœud se voit attribuer sa propre série temporelle.

Détail du nœud : utilisation de la mémoire par le composant Ray

Affiche l'utilisation de la mémoire en Gio. Chaque composant Ray sur chaque nœud se voit attribuer sa propre série temporelle.