Preparación de los datos de entrada propios - AWS Entity Resolution

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de los datos de entrada propios

En los siguientes pasos se describe cómo preparar los datos de origen para utilizarlos en un flujo de trabajo de coincidencia basado en reglas, un flujo de trabajo de coincidencia basado en el aprendizaje automático o un flujo de trabajo de mapeo de ID.

Paso 1: Prepare tablas de datos propias

Cada tipo de flujo de trabajo coincidente tiene un conjunto diferente de recomendaciones y pautas para garantizar el éxito.

Para preparar tablas de datos propias, consulte la siguiente tabla:

Directrices sobre tablas de datos propias
Tipo de flujo de trabajo Obligatorio
Flujo de trabajo de coincidencia basado en reglas con tipo de regla avanzada
  • Se requiere un identificador único.

  • El identificador único no supera los 38 caracteres.

  • (Opcional) Una columna DELETE que especifica los registros de los que se van a eliminar una AWS Entity Resolution vez que el flujo de trabajo haya terminado de procesarse. El valor predeterminado es false si la columna existe sin ningún valor. Se true eliminarán los registros con la columna DELETE establecida en. Los registros con la columna DELETE configurada false o vacía se procesarán mediante AWS Entity Resolution.

    El esquema debe tener una columna DELETE con el tipo String y sin matchKey ygroupName.

    nota

    No se admite la búsqueda de coincidencias (GetMatchID) porque el tipo de regla avanzada para la cadencia de procesamiento manual no almacena ningún dato ingerido.

    En el siguiente ejemplo, se S1 ingerirá y se S2 eliminará.

    sourceID, name, lastName, DELETE S1, name, lastname, false S2, name2, lastname2, true
Flujo de trabajo de coincidencia basado en reglas con un tipo de regla simple
flujo de trabajo de emparejamiento basado en el aprendizaje automático
  • Se requiere un identificador único.

  • El conjunto de datos contiene uno de los siguientes tipos:

    • Full Name

    • Full Address

    • Full phone

    • Email address

    • Date— con una clave de coincidencia (el nombre de la fecha de nacimiento)

Flujo de trabajo de asignación de ID

Paso 2: Guarda la tabla de datos de entrada en un formato de datos compatible

Si ya has guardado los datos de entrada de origen en un formato de datos compatible, puedes saltarte este paso.

Para poder AWS Entity Resolution utilizarlos, los datos de entrada deben estar en un formato AWS Entity Resolution compatible.

AWS Entity Resolution admite los siguientes formatos de datos:

  • valor separado por comas (CSV)

  • Parquet

Paso 3: Cargue la tabla de datos de entrada a Amazon S3

Si ya tiene su tabla de datos de origen en Amazon S3, puede omitir este paso.

nota

Los datos de entrada deben almacenarse en Amazon Simple Storage Service (Amazon S3) en el Cuenta de AWS mismo lugar Región de AWS y en el que desee ejecutar el flujo de trabajo correspondiente.

Para cargar la tabla de datos de entrada a Amazon S3
  1. Inicie sesión en la consola de Amazon S3 AWS Management Console y ábrala en https://console.aws.amazon.com/s3/.

  2. Elija Buckets y, a continuación, elija un bucket para almacenar su tabla de datos.

  3. Elija Cargar y siga las indicaciones de la pantalla.

  4. Seleccione la pestaña Objetos para ver el prefijo donde se almacenan sus datos. Anote el nombre de la carpeta.

    Puede seleccionar la carpeta para ver la tabla de datos.

Paso 4: Crear una AWS Glue tabla

nota

Si necesitas AWS Glue tablas particionadas, salta aPaso 4: Crea una tabla particionada AWS Glue.

Los datos de entrada en Amazon S3 deben catalogarse AWS Glue y representarse como una AWS Glue tabla. Para obtener más información sobre cómo crear una AWS Glue tabla con Amazon S3 como entrada, consulte Trabajar con rastreadores en la AWS Glue consola en la Guía para AWS Glue desarrolladores.

En este paso, debe configurar un rastreador AWS Glue que rastree todos los archivos del bucket de S3 y crear una tabla. AWS Glue

nota

AWS Entity Resolution actualmente no es compatible con las ubicaciones de Amazon S3 registradas en AWS Lake Formation.

Para crear una AWS Glue tabla
  1. Inicie sesión en AWS Management Console y abra la AWS Glue consola en https://console.aws.amazon.com/glue/.

  2. En la barra de navegación, seleccione Rastreadores.

  3. Seleccione su bucket de S3 de la lista y, a continuación, elija Crear rastreador.

  4. En la página Definir las propiedades del rastreador, introduzca un nombre del rastreador (opcional, una descripción) y, a continuación, seleccione Siguiente.

  5. Continúe por la página Añadir rastreador y especifique los detalles.

  6. En la página Elegir un rol de IAM, seleccione Elegir un rol de IAM existente y luego seleccione Siguiente.

    También puede seleccionar Crear un rol de IAM o pedir a su administrador cree el rol de IAM si es necesario.

  7. En Crear una programación para este rastreador, mantenga el valor predeterminado para la Frecuencia (Ejecutar bajo demanda) y, a continuación, seleccione Siguiente.

  8. En Configurar la salida del rastreador, introduzca la AWS Glue base de datos y, a continuación, seleccione Siguiente.

  9. Revise todos los detalles y, a continuación, seleccione Finalizar.

  10. En la página Rastreadores, active la casilla de verificación situada junto a su bucket de S3 y, a continuación, elija Ejecutar rastreador.

  11. Cuando el rastreador termine de ejecutarse, en la barra de AWS Glue navegación, elija Bases de datos y, a continuación, elija el nombre de la base de datos.

  12. En la página Base de datos, elija Tablas de {nombre de su base de datos}.

    1. Vea las tablas de la AWS Glue base de datos.

    2. Para ver el esquema de una tabla, seleccione una tabla.

    3. Anote el nombre de la AWS Glue base de datos y el nombre de AWS Glue la tabla.

Ahora está listo para crear un mapeo de esquemas. Para obtener más información, consulte Crear un esquema de mapeo.

Paso 4: Crea una tabla particionada AWS Glue

nota

La función de AWS Glue partición solo AWS Entity Resolution se admite en los flujos de trabajo de mapeo de ID. Esta función de AWS Glue particionamiento le permite elegir particiones específicas para procesarlas. AWS Entity Resolution

Si no necesitas AWS Glue tablas particionadas, puedes saltarte este paso.

Una AWS Glue tabla particionada refleja automáticamente las nuevas particiones de la AWS Glue tabla cuando agregas nuevas carpetas a la estructura de datos (por ejemplo, una nueva carpeta de un día en un mes).

Al crear una AWS Glue tabla particionada AWS Entity Resolution, puedes especificar qué particiones quieres procesar en un flujo de trabajo de mapeo de ID. Luego, cada vez que ejecutas el flujo de trabajo de mapeo de ID, solo se procesan los datos de esas particiones, en lugar de procesar todos los datos de toda la AWS Glue tabla. Esta función permite un procesamiento de datos más preciso, eficiente y rentable AWS Entity Resolution, lo que le proporciona un mayor control y flexibilidad a la hora de gestionar las tareas de resolución de entidades.

Puede crear una AWS Glue tabla particionada para la cuenta de origen en un flujo de trabajo de mapeo de ID.

Primero debe catalogar los datos de entrada en Amazon S3 AWS Glue y representarlos como una AWS Glue tabla. Para obtener más información sobre cómo crear una AWS Glue tabla con Amazon S3 como entrada, consulte Trabajar con rastreadores en la AWS Glue consola en la Guía para AWS Glue desarrolladores.

En este paso, configuras un rastreador AWS Glue que rastrea todos los archivos de tu bucket de S3 y, a continuación, creas una tabla particionada. AWS Glue

nota

AWS Entity Resolution actualmente no es compatible con las ubicaciones de Amazon S3 registradas en AWS Lake Formation.

Para crear una tabla particionada AWS Glue
  1. Inicie sesión en AWS Management Console y abra la AWS Glue consola en https://console.aws.amazon.com/glue/.

  2. En la barra de navegación, seleccione Rastreadores.

  3. Seleccione su bucket de S3 de la lista y, a continuación, elija Crear rastreador.

  4. En la página Definir las propiedades del rastreador, introduce el nombre del rastreador, una descripción opcional y, a continuación, selecciona Siguiente.

  5. Continúe por la página Añadir rastreador y especifique los detalles.

  6. En la página Elegir un rol de IAM, seleccione Elegir un rol de IAM existente y luego seleccione Siguiente.

    También puede seleccionar Crear un rol de IAM o pedir a su administrador cree el rol de IAM si es necesario.

  7. En Crear una programación para este rastreador, mantenga el valor predeterminado para la Frecuencia (Ejecutar bajo demanda) y, a continuación, seleccione Siguiente.

  8. En Configurar la salida del rastreador, introduzca la AWS Glue base de datos y, a continuación, seleccione Siguiente.

  9. Revise todos los detalles y, a continuación, seleccione Finalizar.

  10. En la página Rastreadores, active la casilla de verificación situada junto a su bucket de S3 y, a continuación, elija Ejecutar rastreador.

  11. Cuando el rastreador termine de ejecutarse, en la barra de AWS Glue navegación, elija Bases de datos y, a continuación, elija el nombre de la base de datos.

  12. En la página Base de datos, en Tablas, elija la tabla que desee particionar.

  13. En la descripción general de la tabla, selecciona el menú desplegable Acciones y, a continuación, selecciona Editar tabla.

    1. En Propiedades de la tabla, selecciona Añadir.

    2. Para la nueva clave, introduzcaaerPushDownPredicateString.

    3. Para el nuevo valor, introduzca'<PartitionKey>=<PartitionValue'.

    4. Anote el nombre de la AWS Glue base de datos y el nombre de AWS Glue la tabla.

Ya puede hacer lo siguiente: