Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Planification d'analyses incrémentielles pour ajouter de nouvelles partitions
Vous pouvez configurer et AWS Glue crawler exécuter des analyses incrémentielles pour ajouter uniquement de nouvelles partitions au schéma de table. Lorsque le robot s'exécute pour la première fois, il effectue une analyse complète pour traiter l'intégralité de la source de données afin d'enregistrer le schéma complet et toutes les partitions existantes dans le. AWS Glue Data Catalog
Les analyses suivantes après l'analyse complète initiale seront incrémentielles, le robot identifiant et ajoutant uniquement les nouvelles partitions introduites depuis l'analyse précédente. Cette approche permet d'accélérer les temps d'exploration, car le robot d'exploration n'a plus besoin de traiter l'intégralité de la source de données à chaque exécution, mais se concentre uniquement sur les nouvelles partitions.
Note
Les analyses incrémentielles ne détectent pas les modifications ou les suppressions de partitions existantes. Cette configuration convient parfaitement aux sources de données dotées d'un schéma stable. En cas de modification majeure ponctuelle du schéma, il est conseillé de configurer temporairement le robot d'exploration pour qu'il effectue une analyse complète afin de capturer le nouveau schéma avec précision, puis de revenir en mode d'analyse incrémentielle.
Le schéma suivant montre que lorsque le paramètre d'analyse incrémentielle est activé, le robot détecte et ajoute uniquement le dossier nouvellement ajouté, MONTH=March, au catalogue.
Procédez comme suit pour mettre à jour votre robot afin d'effectuer des analyses incrémentielles :
Notes et restrictions
Lorsque cette option est activée, vous ne pouvez pas modifier les magasins de données cibles Amazon S3 lors de la modification de l'crawler. Cette option affecte certains paramètres de configuration de l'crawler. Lorsqu'il est activé, il force le comportement de mise à jour et le comportement de suppression de l'crawler à LOG
. Cela signifie que :
-
S'il découvre des objets dont les schémas ne sont pas compatibles, le robot d'exploration n'ajoutera pas les objets dans le catalogue de données et ajoute ce détail sous forme de journal de connexion. CloudWatch
-
Il ne met pas à jour les objets supprimés dans le catalogue de données.