Activation de la journalisation continue pour les tâches AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Activation de la journalisation continue pour les tâches AWS Glue

Vous pouvez activer la journalisation continue à l'aide de la AWS Glue console ou via le AWS Command Line Interface (AWS CLI).

Vous pouvez activer la journalisation continue lorsque vous créez une nouvelle tâche, modifiez une tâche existante ou que vous l'activez via le AWS CLI.

Vous pouvez également spécifier des options de configuration personnalisées telles que le nom du groupe de Amazon CloudWatch journaux, le préfixe du flux de CloudWatch journal avant l'ID d'exécution de la AWS Glue tâche, l'ID du pilote/exécuteur et le modèle de conversion des journaux pour les messages de journal. Ces configurations vous permettent de définir des journaux agrégés dans des groupes de CloudWatch journaux personnalisés avec différentes politiques d'expiration, et de les analyser plus en détail à l'aide de préfixes de flux de journaux et de modèles de conversion personnalisés.

À l'aide du AWS Management Console

Suivez les étapes ci-dessous pour utiliser la console afin d'activer la journalisation continue lors de la création ou de la modification d'une tâche AWS Glue.

Pour créer une tâche AWS Glue avec la journalisation continue
  1. Connectez-vous à la AWS Glue console AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/glue/.

  2. Dans le volet de navigation, sélectionnez ETL jobs.

  3. Choisissez Visual ETL.

  4. Dans l'onglet Détails du Job, développez la section Propriétés avancées.

  5. Sous Journalisation continue, sélectionnez Activer les connexions CloudWatch.

Pour activer la journalisation continue pour une tâche AWS Glue existante
  1. Ouvrez la AWS Glue console à l'adresse https://console.aws.amazon.com/glue/.

  2. Dans le volet de navigation, sélectionnez Tâches.

  3. Choisissez une tâche existante à partir de la liste des Tâches.

  4. Choisissez Action, Modifier la tâche.

  5. Dans l'onglet Détails du Job, développez la section Propriétés avancées.

  6. Sous Journalisation continue, sélectionnez Activer les connexions CloudWatch.

À l'aide du AWS CLI

Pour activer la journalisation continue, vous transmettez des paramètres de tâches à une tâche AWS Glue. Transmettez les paramètres de tâche spéciaux suivants, similaires aux autres paramètres de AWS Glue tâche. Pour de plus amples informations, veuillez consulter Paramètres des tâches AWS Glue.

'--enable-continuous-cloudwatch-log': 'true'

Vous pouvez spécifier un nom de groupe de CloudWatch journaux Amazon personnalisé. Si aucune valeur n’est spécifiée, le nom par défaut du groupe de journaux est /aws-glue/jobs/logs-v2/.

'--continuous-log-logGroup': 'custom_log_group_name'

Vous pouvez spécifier un préfixe de flux de CloudWatch journal Amazon personnalisé. Si aucune valeur n’est spécifiée, le préfixe de flux de journal par défaut est l'ID d'exécution du travail.

'--continuous-log-logStreamPrefix': 'custom_log_stream_prefix'

Vous pouvez spécifier un modèle de conversion de journalisation continue personnalisé. Si aucune valeur n’est spécifiée, le modèle de conversion par défaut est %d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n. Notez que le modèle de conversion s'applique uniquement aux journaux des pilotes et des programmes d’exécution. Cela n'affecte pas la barre de progression AWS Glue.

'--continuous-log-conversionPattern': 'custom_log_conversion_pattern'

Journalisation des messages spécifiques aux applications à l'aide de l'enregistreur de script personnalisé

Vous pouvez utiliser l'enregistreur AWS Glue pour consigner tous les messages spécifiques à l'application dans le script qui sont envoyés en temps réel au flux de journaux du pilote.

L'exemple suivant illustre un script Python.

from awsglue.context import GlueContext from pyspark.context import SparkContext sc = SparkContext() glueContext = GlueContext(sc) logger = glueContext.get_logger() logger.info("info message") logger.warn("warn message") logger.error("error message")

L'exemple suivant illustre un script Scala.

import com.amazonaws.services.glue.log.GlueLogger object GlueApp { def main(sysArgs: Array[String]) { val logger = new GlueLogger logger.info("info message") logger.warn("warn message") logger.error("error message") } }

Activation de la barre de progression pour afficher la progression d'une tâche

AWS Glue fournit une barre de progression en temps réel dans le cadre du flux de journaux JOB_RUN_ID-progress-bar pour vérifier le statut d'exécution d'une tâche AWS Glue. Actuellement, il prend en charge uniquement les tâches qui initialisent glueContext. Si vous exécutez une tâche Spark pure sans initialiser glueContext, la barre de progression AWS Glue ne s'affiche pas.

La barre de progression indique une mise à jour de la progression suivante toutes les 5 secondes.

Stage Number (Stage Name): > (numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]

Configuration de sécurité avec la journalisation continue

Si une configuration de sécurité est activée pour CloudWatch les journaux, AWS Glue créera un groupe de journaux nommé comme suit pour les journaux continus :

<Log-Group-Name>-<Security-Configuration-Name>

Les groupes de journaux par défaut et personnalisés seront les suivants :

  • Le groupe de journaux continus par défaut sera /aws-glue/jobs/logs-v2-<Security-Configuration-Name>

  • Le groupe de journaux continus personnalisé sera <custom-log-group-name>-<Security-Configuration-Name>

Vous devez ajouter les autorisations logs:AssociateKmsKey à votre rôle IAM, si vous activez une configuration de sécurité avec CloudWatch Logs. Si cette autorisation n'est pas incluse, la journalisation continue sera désactivée. De plus, pour configurer le chiffrement des CloudWatch journaux, suivez les instructions de la section Chiffrer les données des CloudWatch journaux dans les journaux à l'aide AWS Key Management Service du guide de l'utilisateur Amazon CloudWatch Logs.

Pour plus d'informations sur la création de configurations de sécurité, veuillez consulter Gestion des configurations de sécurité sur la console AWS Glue.