Planification d'analyses incrémentielles pour ajouter de nouvelles partitions - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Planification d'analyses incrémentielles pour ajouter de nouvelles partitions

Vous pouvez configurer et AWS Glue crawler exécuter des analyses incrémentielles pour ajouter uniquement de nouvelles partitions au schéma de table. Lorsque le robot s'exécute pour la première fois, il effectue une analyse complète pour traiter l'intégralité de la source de données afin d'enregistrer le schéma complet et toutes les partitions existantes dans le. AWS Glue Data Catalog

Les analyses suivantes après l'analyse complète initiale seront incrémentielles, le robot identifiant et ajoutant uniquement les nouvelles partitions introduites depuis l'analyse précédente. Cette approche permet d'accélérer les temps d'exploration, car le robot d'exploration n'a plus besoin de traiter l'intégralité de la source de données à chaque exécution, mais se concentre uniquement sur les nouvelles partitions.

Note

Les analyses incrémentielles ne détectent pas les modifications ou les suppressions de partitions existantes. Cette configuration convient parfaitement aux sources de données dotées d'un schéma stable. En cas de modification majeure ponctuelle du schéma, il est conseillé de configurer temporairement le robot d'exploration pour qu'il effectue une analyse complète afin de capturer le nouveau schéma avec précision, puis de revenir en mode d'analyse incrémentielle.

Le schéma suivant montre que lorsque le paramètre d'analyse incrémentielle est activé, le robot détecte et ajoute uniquement le dossier nouvellement ajouté, MONTH=March, au catalogue.

Le diagramme suivant montre que les fichiers du mois de mars ont été ajoutés.

Procédez comme suit pour mettre à jour votre robot afin d'effectuer des analyses incrémentielles :

AWS Management Console
  1. Connectez-vous à la AWS Glue console AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/glue/.

  2. Choisissez Crawlers dans le catalogue de données.

  3. Choisissez un robot d'exploration que vous souhaitez configurer pour qu'il explore de manière incrémentielle.

  4. Choisissez Modifier.

  5. Choisissez l'étape 2. Choisissez les sources de données et les classificateurs.

  6. Choisissez la source de données que vous souhaitez analyser de manière incrémentielle.

  7. Choisissez Modifier.

  8. Choisissez Analyser les nouveaux sous-dossiers uniquement sous Exécutions d'exploration ultérieures.

  9. Choisissez Mettre à jour.

Pour créer un calendrier pour un robot d'exploration, consultezPlanification d'un crawler.

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
Notes et restrictions

Lorsque cette option est activée, vous ne pouvez pas modifier les magasins de données cibles Amazon S3 lors de la modification de l'crawler. Cette option affecte certains paramètres de configuration de l'crawler. Lorsqu'il est activé, il force le comportement de mise à jour et le comportement de suppression de l'crawler à LOG. Cela signifie que :

  • S'il découvre des objets dont les schémas ne sont pas compatibles, le robot d'exploration n'ajoutera pas les objets dans le catalogue de données et ajoute ce détail sous forme de journal de connexion. CloudWatch

  • Il ne met pas à jour les objets supprimés dans le catalogue de données.