Uso de Eliminar duplicados - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de Eliminar duplicados

La transformación Eliminar duplicados elimina las filas del origen de datos ofreciéndole dos opciones. Puede eliminar la fila duplicada que sea completamente igual o elegir los campos que desee que coincidan y eliminar solo las filas en función de los campos que haya elegido.

Por ejemplo, en este conjunto de datos, tiene filas duplicadas en las que todos los valores de algunas filas son exactamente iguales a los de otra fila y algunos de los valores de las filas son iguales o diferentes.

Fila Nombre Correo electrónico Edad Estado Nota
1 Alegría alegría@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rosa rosa@gmail 23 NJ
4 Tim tim@gmail 42 OH
5 Rosa rosa@gmail 23 NJ
6 Tim tim@gmail 42 OH se trata de una fila duplicada y coincide completamente con todos los valores de la fila #4
7 Rosa rosa@gmail 23 NJ Se trata de una fila duplicada y coincide completamente con todos los valores de la fila #5

Si opta por hacer coincidir filas enteras, las filas 6 y 7 se eliminarán del conjunto de datos. El conjunto de datos ahora es el siguiente:

Fila Nombre Correo electrónico Edad Estado
1 Alegría alegría@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rosa rosa@gmail 23 NJ
4 Tim tim@gmail 42 OH
5 Rosa rosa@gmail 23 NJ

Si opta por especificar las claves, puede optar por eliminar las filas que coincidan con las palabras “nombre” y “correo electrónico”. Esto permite controlar mejor qué es una “fila duplicada” para el conjunto de datos. Al especificar “nombre” y “correo electrónico”, el conjunto de datos ahora es el siguiente:

Fila Nombre Correo electrónico Edad Estado
1 Alegría alegría@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rosa rosa@gmail 23 NJ

Algunas cosas a tener en cuenta:

  • Para que las filas se reconozcan como duplicadas, los valores distinguen entre mayúsculas y minúsculas. Todos los valores de las filas deben tener las mismas mayúsculas y minúsculas; esto se aplica a cualquier opción que elija (hacer coincidir filas enteras o Especificar claves).

  • Todos los valores se leen como cadenas.

  • La transformación Eliminar duplicados utiliza el comando dropDuplicates de Spark.

  • Cuando se utiliza la transformación Eliminar duplicados, la primera fila se mantiene y las demás filas se eliminan.

  • La transformación Eliminar duplicados no cambia el esquema del marco de datos. Si decide especificar claves, todos los campos se mantienen en el marco de datos resultante.