Caractéristiques et concepts importants - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Caractéristiques et concepts importants

Journalisation et surveillance

AWS Glue propose plusieurs options de journalisation et de surveillance. Par défaut, AWS Glue envoie les journaux au groupe de aws-glue journaux d'Amazon CloudWatch. Ces journaux contiennent des informations telles que les heures de début et de fin, les paramètres de configuration et les erreurs ou avertissements éventuels.

En outre, les tâches AWS Glue Spark ETL proposent les options suivantes, qui doivent être activées pour une surveillance avancée :

  • Les métriques relatives aux tâches transmettent des mesures spécifiques à la tâche à l'espace de AWS Glue noms CloudWatch toutes les 30 secondes. Ces indicateurs spécifiques à la tâche, tels que les enregistrements traités, la taille totale des données d'entrée/sortie et le temps d'exécution, fournissent des informations sur les performances d'une tâche. Ils peuvent aider à identifier les goulets d'étranglement ou les opportunités d'optimisation des configurations.

  • La journalisation continue diffuse les journaux des tâches Apache Spark en temps réel vers le groupe de /aws-glue/jobs/logs-v2 journalisation CloudWatch. En utilisant des journaux en temps réel, vous pouvez surveiller les AWS Glue tâches de manière dynamique pendant leur exécution.

  • L'interface utilisateur de Spark fournit une interface Web de serveur d'historique Spark permettant de consulter les informations relatives à la tâche Spark, telles que la chronologie des événements de chaque étape, un graphe acyclique dirigé et les variables d'environnement de la tâche. Les journaux d'événements persistants de l'interface utilisateur Spark sont stockés dans Amazon S3 et vous pouvez les utiliser en temps réel ou une fois le travail terminé.

  • Job Run Insights simplifie le débogage et l'optimisation des tâches en détectant les exceptions courantes de Spark, en analysant les causes premières et en proposant des actions recommandées pour résoudre les problèmes. Les informations sont stockées dans CloudWatch.

 Automatisation

AWS Glue propose deux méthodes principales pour automatiser les tâches ETL : les déclencheurs et les flux de travail.

AWS Glue déclencheurs

Lorsqu'ils sont déclenchés, les AWS Glue déclencheurs démarrent les tâches et les robots d'exploration spécifiés. Un déclencheur peut être déclenché à la demande, selon un calendrier prédéfini ou en fonction d'événements spécifiques. Vous pouvez utiliser des déclencheurs pour concevoir une chaîne de tâches et de robots dépendants. Pour plus d'informations, consultez la section AWS Glue Déclencheurs

AWS Glue flux de travail

Pour les charges de travail plus complexes, vous pouvez utiliser des AWS Glue flux de travail pour créer des graphes acycliques orientés et pour créer des dépendances entre AWS Glue des entités distinctes (déclencheurs, robots d'exploration et tâches). Les flux de travail fournissent également une interface unifiée dans laquelle vous pouvez partager des paramètres, suivre les progrès et résoudre les problèmes entre les entités associées.

La configuration de nombreuses entités associées dans les AWS Glue flux de travail peut devenir de plus en plus complexe. Les développeurs peuvent créer des AWS Glue plans pour partager des pipelines de données complexes avec des data scientists et des analystes commerciaux. Ces modèles permettent la création cohérente et reproductible de AWS Glue flux de travail, en faisant abstraction des détails techniques.

Pour en savoir plus sur les AWS Glue plans et les flux de travail, voir Exécution d'activités ETL complexes à l'aide de plans et de flux de travail dans. AWS Glue

Orchestrer les AWS Glue tâches avec d'autres services AWS

Pour davantage d'options d'automatisation, AWS Glue s'intègre à d'autres AWS services, tels que AWS Lambda AWS Step Functions, et Amazon Managed Workflows for Apache Airflow (Amazon MWAA).

Pour comparer les différentes méthodes d'orchestration pour les tâches AWS Glue ETL, voir Création d'un pipeline de données performant sur le plan opérationnel.

Signets de tâche

Les signets de tâches AWS Glue sont utilisés pour suivre la progression des tâches ETL, ce qui évite de devoir retraiter les données lors des exécutions de tâches suivantes. Lorsque les signets de tâches sont activés, AWS Glue conserve un enregistrement des données déjà traitées. Ensuite, à chaque exécution, il traite uniquement les nouvelles données de la source de données. Pour plus d'informations, consultez la section Suivi des données traitées à l'aide des signets de tâches.