Résolution des problèmes : CloudWatch journaux et CloudTrail erreurs - Amazon Managed Workflows for Apache Airflow

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des problèmes : CloudWatch journaux et CloudTrail erreurs

Les rubriques de cette page contiennent des solutions à Amazon CloudWatch Logs et des AWS CloudTrail erreurs que vous pouvez rencontrer dans un environnement Amazon Managed Workflows pour Apache Airflow.

Journaux

La rubrique suivante décrit les erreurs que vous pouvez recevoir lors de l'affichage des journaux Apache Airflow.

Je ne peux pas voir mes journaux de tâches ou j'ai reçu le message d'erreur « Lire le journal distant depuis Cloudwatch log_group »

Amazon MWAA a configuré Apache Airflow pour lire et écrire des journaux directement depuis et vers Amazon CloudWatch Logs. Si un travailleur ne démarre pas une tâche ou n'écrit aucun journal, le message d'erreur suivant s'affichera :

*** Reading remote log from Cloudwatch log_group: airflow-environmentName-Task log_stream: DAG_ID/TASK_ID/timestamp/n.log.Could not read remote logs from log_group: airflow-environmentName-Task log_stream: DAG_ID/TASK_ID/time/n.log.
  • Nous vous recommandons la procédure suivante :

    1. Vérifiez que vous avez activé les journaux de tâches au INFO niveau de votre environnement. Pour plus d'informations, veuillez consulter Afficher les journaux Airflow sur Amazon CloudWatch.

    2. Vérifiez que le rôle d'exécution de l'environnement dispose des politiques d'autorisation appropriées.

    3. Vérifiez que votre opérateur ou votre tâche fonctionne correctement, dispose de suffisamment de ressources pour analyser le DAG et dispose des bibliothèques Python appropriées à charger. Pour vérifier si vous avez les bonnes dépendances, essayez d'éliminer les importations jusqu'à ce que vous trouviez celle à l'origine du problème. Nous vous recommandons de tester vos dépendances Python à l'aide de l'outil Amazon MWAA local-runner.

Les tâches échouent sans aucun journal

Si des tâches échouent dans un flux de travail et que vous ne trouvez aucun journal pour les tâches ayant échoué, vérifiez si vous définissez le queue paramètre dans vos arguments par défaut, comme indiqué ci-dessous.

from airflow import DAG from airflow.operators.bash_operator import BashOperator from airflow.utils.dates import days_ago # Setting queue argument to default. default_args = { "start_date": days_ago(1), "queue": "default" } with DAG(dag_id="any_command_dag", schedule_interval=None, catchup=False, default_args=default_args) as dag: cli_command = BashOperator( task_id="bash_command", bash_command="{{ dag_run.conf['command'] }}" )

Pour résoudre le problème, supprimez-le queue de votre code et invoquez à nouveau le DAG.

Je vois une erreur ResourceAlreadyExistsException « » dans CloudTrail

"errorCode": "ResourceAlreadyExistsException", "errorMessage": "The specified log stream already exists", "requestParameters": { "logGroupName": "airflow-MyAirflowEnvironment-DAGProcessing", "logStreamName": "scheduler_cross-account-eks.py.log" }

Certaines exigences relatives à Python, apache-airflow-backport-providers-amazon telles que le retour à une ancienne version de la watchtower bibliothèque utilisée par Amazon MWAA CloudWatch pour communiquer. Nous vous recommandons la procédure suivante :

  • Ajoutez la bibliothèque suivante à votre requirements.txt

    watchtower==1.0.6

Je vois une erreur « Demande non valide » dans CloudTrail

Invalid request provided: Provided role does not have sufficient permissions for s3 location airflow-xxx-xxx/dags

Si vous créez un environnement Amazon MWAA et un compartiment Amazon S3 à l'aide du même AWS CloudFormation modèle, vous devez ajouter une DependsOn section dans votre AWS CloudFormation modèle. Les deux ressources (MWAA Environment et MWAA Execution Policy) sont dépendantes de. AWS CloudFormation Nous vous recommandons la procédure suivante :

  • Ajoutez la DependsOn déclaration suivante à votre AWS CloudFormation modèle.

    ... MaxWorkers: 5 NetworkConfiguration: SecurityGroupIds: - !GetAtt SecurityGroup.GroupId SubnetIds: !Ref subnetIds WebserverAccessMode: PUBLIC_ONLY DependsOn: MwaaExecutionPolicy MwaaExecutionPolicy: Type: AWS::IAM::ManagedPolicy Properties: Roles: - !Ref MwaaExecutionRole PolicyDocument: Version: 2012-10-17 Statement: - Effect: Allow Action: airflow:PublishMetrics Resource: ...

    Pour voir un exemple, consultez Tutoriel de démarrage rapide pour Amazon Managed Workflows pour Apache Airflow.

Je vois un message « Impossible de localiser une bibliothèque client Oracle 64 bits : « libclntsh.so : impossible d'ouvrir un fichier objet partagé : aucun fichier ou répertoire de ce type » dans les journaux d'Apache Airflow

Je vois que le serveur de psycopg2 a fermé la connexion de façon inattendue dans les journaux de mon planificateur

Si une erreur similaire à la suivante s'affiche, votre planificateur Apache Airflow est peut-être à court de ressources.

2021-06-14T10:20:24.581-05:00 sqlalchemy.exc.OperationalError: (psycopg2.OperationalError) server closed the connection unexpectedly 2021-06-14T10:20:24.633-05:00 This probably means the server terminated abnormally 2021-06-14T10:20:24.686-05:00 before or while processing the request.

Nous vous recommandons la procédure suivante :

  • Envisagez de passer à Apache Airflow v2.0.2, qui vous permet de spécifier jusqu'à 5 planificateurs.

Je vois « L'exécuteur signale que l'instance de tâche %s est terminée (%s) alors que la tâche indique %s » dans les journaux de traitement de mon DAG

Si un message d'erreur similaire à ce qui suit s'affiche, il est possible que vos tâches de longue durée aient atteint la limite de temps sur Amazon MWAA. Amazon MWAA impose une limite de 12 heures pour chaque tâche Airflow, afin d'éviter que les tâches ne restent bloquées dans la file d'attente et ne bloquent des activités telles que le dimensionnement automatique.

Executor reports task instance %s finished (%s) although the task says its %s. (Info: %s) Was the task killed externally

Nous vous recommandons la procédure suivante :

  • Envisagez de diviser la tâche en plusieurs tâches plus courtes. Airflow utilise généralement un modèle dans lequel les opérateurs sont asynchrones. Il invoque des activités sur des systèmes externes, et Apache Airflow Sensors interroge pour savoir quand il est terminé. Si un capteur tombe en panne, il peut être réessayé en toute sécurité sans affecter les fonctionnalités de l'opérateur.

Je vois « Impossible de lire les journaux distants depuis log_group : airflow-* {*EnvironmentName} -Task log_stream :* {*DAG_ID} /* {*TASK_ID} /* {*time} /* {*n} .log. » dans mes journaux de tâches

Si une erreur similaire à la suivante s'affiche, le rôle d'exécution de votre environnement ne contient peut-être pas de politique d'autorisation permettant de créer des flux de journaux pour les journaux de tâches.

Could not read remote logs from log_group: airflow-*{*environmentName}-Task log_stream:* {*DAG_ID}/*{*TASK_ID}/*{*time}/*{*n}.log.

Nous vous recommandons la procédure suivante :

Vous avez peut-être également indiqué dans votre requirements.txt fichier un package de fournisseur incompatible avec votre version d'Apache Airflow. Par exemple, si vous utilisez Apache Airflow v2.0.2, vous avez peut-être spécifié un package, tel que le apache-airflow-providers-databrickspackage, qui n'est compatible qu'avec Airflow 2.1+.

Nous vous recommandons la procédure suivante :

  1. Si vous utilisez Apache Airflow v2.0.2, modifiez le requirements.txt fichier et ajoutez-le. apache-airflow[databricks] Cela installe la version correcte du package Databricks compatible avec Apache Airflow v2.0.2.

  2. Testez vos DAG, vos plugins personnalisés et vos dépendances Python localement à l'aide de l'option aws-mwaa-local-runneron GitHub.