Présentation de l’utilisation AWS Glue

Avec AWS Glue, vous stockez des métadonnées dans le AWS Glue Data Catalog. Vous utilisez ces métadonnées pour orchestrer des tâches ETL qui transforment des sources de données et chargent votre entrepôt de données ou votre lac de données. Les étapes suivantes décrivent le flux de travail général et certains des choix qui s'offrent à vous lorsque vous travaillez avec AWS Glue.

Note

Vous pouvez suivre les étapes ci-dessous, ou créer un flux de travail qui exécute automatiquement les étapes 1 à 3. Pour de plus amples informations, veuillez consulter Exécution d'activités ETL complexes à l'aide de plans et de flux de travail dans AWS Glue.

Remplissez le AWS Glue Data Catalog avec des définitions de table.

Dans la console, pour les magasins de données persistantes, vous pouvez ajouter un crawler pour remplir le AWS Glue Data Catalog. Vous pouvez lancer l'assistant Add crawler (Ajout d'un crawler) à partir de la liste des tables ou de la liste des crawlers. Vous choisissez un ou plusieurs magasins de données auxquels votre crawler accèdera. Vous pouvez également créer un calendrier pour déterminer la fréquence d'exécution de votre crawler. Pour les flux de données, vous pouvez créer manuellement la définition de table et définir les propriétés de flux.

Si vous le souhaitez, vous pouvez fournir un classifieur personnalisé qui déduit le schéma de vos données. Vous pouvez créer des classifieurs personnalisés à l'aide d'un modèle grok. Toutefois, AWS Glue fournit des classifieurs intégrés qui sont automatiquement utilisés par les crawlers si un classifieur personnalisé ne reconnaît pas vos données. Lorsque vous définissez un crawler, vous n'avez pas besoin de sélectionner un classifieur. Pour plus d'informations sur les classifieurs dans AWS Glue, consultez Ajout de classifieurs à un Crawler dans AWS Glue.

L'analyse de certains types de magasins de données nécessite une connexion qui fournit des informations de localisation et d'authentification. Si nécessaire, vous pouvez créer une connexion qui fournit ces informations requises dans la console AWS Glue.

L'crawler lit votre magasin de données et crée des définitions de données et des tables nommées dans le AWS Glue Data Catalog. Ces tables sont organisées dans une base de données de votre choix. Vous pouvez également remplir le catalogue de données avec des tables créées manuellement. Avec cette méthode, vous fournissez le schéma et d'autres métadonnées pour créer des définitions de table dans le catalogue de données. Cette méthode pouvant être un peu fastidieuse et source d'erreurs, il est souvent préférable de faire créer les définitions de table par un crawler.

Pour en savoir plus sur la façon de remplir le AWS Glue Data Catalog avec des définitions de table, consultez Création de tables.
Définissez une tâche qui décrit la transformation de données de la source vers la cible.

En général, pour créer une tâche, vous devez faire les choix suivants :
- Sélectionnez une table à partir du AWS Glue Data Catalog comme source de la tâche. Votre tâche utilise cette définition de table pour accéder à votre source de données et interpréter le format de ces dernières.
- Choisissez une table ou un emplacement à partir du AWS Glue Data Catalog comme cible de la tâche. Votre tâche utilise cette information pour accéder à votre magasin de données.
- Demandez à AWS Glue de générer un script pour transformer votre source en cible. AWS Glue génère le code pour appeler des transformations intégrées destinées à convertir les données de son schéma source au format du schéma cible. Ces transformations réalisent des opérations comme copier des données, renommer des colonnes et filtrer des données pour transformer les données si nécessaire. Vous pouvez modifier ce script dans la console AWS Glue.
Pour en savoir plus sur la définition des tâches dans AWS Glue, consultez Créer des tâches ETL visuelles avec AWS Glue Studio.
Exécutez votre tâche pour transformer vos données.

Vous pouvez exécuter votre tâche à la demande, ou la démarrer en fonction d'un des types de déclencheurs suivants :
- Un déclencheur basé sur une planification cron.
- Un déclencheur basé sur un événement ; par exemple, la réussite de l'exécution d'une autre tâche peut démarrer une tâche AWS Glue.
- Un déclencheur qui lance une tâche à la demande.
Pour en savoir plus sur les déclencheurs dans AWS Glue, consultez Démarrage des tâches et des crawlers à l'aide de déclencheurs.
Surveillez vos crawlers planifiés et vos tâches déclenchées.

Utilisez la console AWS Glue pour afficher les informations suivantes :
- Les détails et les erreurs de l'exécution d'une tâche.
- Les détails et les erreurs de l'exécution d'un crawler.
- Toutes les notifications sur les activités AWS Glue
Pour en savoir plus sur la surveillance de vos crawlers et de vos tâches dans AWS Glue, consultez Surveillance des AWS Glue.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Premiers pas

Configuration des autorisations IAM