Búsqueda de coincidencias progresivas - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Búsqueda de coincidencias progresivas

La característica de búsqueda de coincidencias permite identificar registros duplicados o coincidentes en el conjunto de datos, incluso cuando los registros no tienen un identificador único común y no coinciden exactamente los campos. La versión inicial de búsqueda de coincidencia transforma los registros coincidentes identificados dentro de un único conjunto de datos. Cuando agregó datos nuevos al conjunto de datos, tuvo que fusionarlo con el conjunto de datos limpio existente y volver a ejecutar la coincidencia con el conjunto de datos fusionado completo.

La característica de coincidencia progresiva facilita la coincidencia con los registros progresivos con respecto a los conjuntos de datos coincidentes existentes. Suponga que desea asociar los datos de los clientes potenciales con los conjuntos de datos de clientes existentes. La capacidad de coincidencia progresiva proporciona la flexibilidad de asociar cientos de miles de nuevos clientes potenciales con una base de datos existente de clientes potenciales y clientes existentes mediante la fusión de los resultados en una única base de datos o tabla. Al hacer coincidir solo entre los conjuntos de datos nuevos y existentes, la optimización de búsqueda de coincidencias progresivas reduce el tiempo de cálculo, lo que también reduce los costos.

La utilización de la coincidencia progresiva es similar a la búsqueda de coincidencias tal como se describe en Tutorial: creación de una transformación de machine learning con AWS Glue. En este tema, se identifican únicamente las diferencias con la coincidencia progresiva.

Para obtener más información, consulte la publicación del blog de Coincidencia progresiva de datos.

Ejecución de un trabajo de coincidencia progresiva

Para el siguiente procedimiento, suponga lo siguiente:

  • Se ha rastreado el conjunto de datos existente y los resultados se han pasado a la tabla first_records. El conjunto de datos de first_records debe ser un conjunto de datos coincidente, o bien el resultado del trabajo coincidente.

  • Se ha creado y entrenado una transformación de FindMatches con AWS Glue versión 2.0. Esta es la única versión de AWS Glue que soporta coincidencias progresivas.

  • El lenguaje de ETL es Scala. Tenga en cuenta que también se soporta Python.

  • El modelo ya generado se denomina demo-xform.

  1. Rastree el conjunto de datos progresivo hasta la tabla second_records.

  2. En el panel de navegación de la consola de AWS Glue, seleccione Jobs (Trabajos).

  3. Elija Add job (Añadir trabajo) y siga los pasos en el asistente para crear un trabajo de ETL Spark con un script generado. Elija los siguientes valores de propiedad para su transformación:

    1. Para Name (Nombre), elija demo-etl.

    2. En IAM role (Rol de IAM), elija un rol de IAM con permiso para los datos de origen de Amazon S3, el archivo de etiquetado y las operaciones de la API de AWS Glue.

    3. En ETL language (Lenguaje de ETL), elija Scala.

    4. En Script file name (Nombre de archivo de script), elija demo-etl. Este es el nombre de archivo del script de Scala.

    5. Para Data source (Origen de datos), elija first_records. El origen de datos que elija debe coincidir con el esquema de origen de datos de transformación de machine learning.

    6. En Transform type (Tipo de transformación), elija Find matching records (Buscar registros de coincidencia) para crear un trabajo mediante una transformación de machine learning.

    7. Seleccione la opción de coincidencia progresiva y para Data source (Origen de datos), seleccione la tabla denominada second_records.

    8. En Transform (Transformación), elija demo-xform, la transformación de machine learning utilizada por el trabajo.

    9. Elija Create tables in your data target (Crear tablas en el destino de datos) o Use tables in the data catalog and update your data target (Utilizar tablas en el Catálogo de datos y actualizar el destino de datos).

  4. Elija Save job and edit script (Guardar trabajo y editar script) para mostrar la página del editor de scripts.

  5. Elija Run job (Ejecutar trabajo) para iniciar la ejecución de trabajo.