Recherche de correspondances progressives - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Recherche de correspondances progressives

La fonction Recherche de correspondances vous permet d'identifier les registres en double ou correspondants dans votre jeu de données, même lorsque les registres n'ont pas un identifiant unique commun et qu'aucun champ ne correspond exactement. La version initiale de la recherche de correspondances transforme les registres correspondants identifiés au sein d'un même jeu de données. Lorsque vous ajoutez de nouvelles données au jeu de données, vous deviez les fusionner avec le jeu de données propre existant et exécuter à nouveau la correspondance avec le jeu de données fusionné complet.

La fonction de correspondance progressive facilite la correspondance avec des registres progressifs en comparaison aux jeux de données appariés existants. Supposons que vous souhaitiez associer les données de prospects aux jeux de données clients existants. La fonctionnalité de correspondance progressive vous offre la flexibilité nécessaire pour associer des centaines de milliers de nouveaux prospects à une base de données existante de prospects et de clients en fusionnant les résultats en une seule base de données ou table. En faisant correspondre uniquement les jeux de données nouveaux et existants, l'optimisation de recherche de correspondances progressives réduit le temps de calcul, ce qui réduit également les coûts.

L'utilisation de la correspondance progressive est similaire à celle de la Recherche de correspondances décrite dans Didacticiel : Création d'une transformation de Machine Learning avec AWS Glue. Cette rubrique identifie uniquement les différences avec la correspondance progressive.

Pour en savoir plus, consultez l'article de blog sur Correspondance progressive des données.

Exécution d'une tâche de correspondance progressive

Pour la procédure suivante, supposons la situation suivante :

  • Vous avez exploré le jeu de données existant dans la table first_records. Le jeu de données first_records doit être un jeu de données correspondant, ou la sortie de la tâche correspondante.

  • Vous avez créé et entraîné une transformation Recherche de correspondances avec AWS Glue version 2.0. Il s'agit de la seule version de AWS Glue qui prend en charge les correspondances progressives.

  • Le langage ETL est Scala. Notez que Python est également pris en charge.

  • Le modèle déjà généré s'appelle demo-xform.

  1. Analyse du jeu de données progressif vers la table second_records.

  2. Sur la console AWS Glue, dans le panneau de navigation, sélectionnez Jobs (Tâches).

  3. Choisissez Ajouter une tâche, et suivez les étapes de l'assistant pour créer une tâche ETL Spark avec un script généré. Choisissez les valeurs de propriété suivantes pour votre transformation :

    1. Pour Nom, choisissez demo-etl.

    2. Pour Rôle IAM, choisissez un rôle IAM disposant d'une autorisation sur les données source Amazon S3, le fichier d'étiquetage et les opérations d'APIAWS Glue.

    3. Pour Langage ETL, choisissez Scala.

    4. Pour Nom du fichier script, choisissez demo-etl. Il s'agit du nom de fichier du script Scala.

    5. Pour Source de données, choisissez first_records. La source de données que vous choisissez doit correspondre au schéma de source de données de la transformation Machine Learning.

    6. Pour Type de transformation, choisissez Find matching records Rechercher des enregistrements correspondants pour créer une tâche à l'aide d'une transformation Machine Learning.

    7. Sélectionnez l'option de correspondance progressive, et pour Source de données sélectionnez la table nommée second_records.

    8. Pour Transformation, choisissez demo-xform, la transformation de machine learning utilisée par la tâche.

    9. Choisissez Créer des tables dans votre cible de données ou Utiliser les tables du catalogue de données et mettre à jour votre cible de données.

  4. Choisissez Enregistrer la tâche et modifier le script pour afficher la page de l'éditeur de script.

  5. Choisissez Exécuter la tâche pour démarrer l'exécution de la tâche.