Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Uso de Eliminar duplicados

Modo de enfoque
Uso de Eliminar duplicados - AWS Glue

La transformación Eliminar duplicados elimina las filas del origen de datos ofreciéndole dos opciones. Puede eliminar la fila duplicada que sea completamente igual o elegir los campos que desee que coincidan y eliminar solo las filas en función de los campos que haya elegido.

Por ejemplo, en este conjunto de datos, tiene filas duplicadas en las que todos los valores de algunas filas son exactamente iguales a los de otra fila y algunos de los valores de las filas son iguales o diferentes.

Fila Nombre Correo electrónico Edad Estado Nota
1 Alegría alegría@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rosa rosa@gmail 23 NJ
4 Tim tim@gmail 42 OH
5 Rosa rosa@gmail 23 NJ
6 Tim tim@gmail 42 OH se trata de una fila duplicada y coincide completamente con todos los valores de la fila #4
7 Rosa rosa@gmail 23 NJ Se trata de una fila duplicada y coincide completamente con todos los valores de la fila #5

Si opta por hacer coincidir filas enteras, las filas 6 y 7 se eliminarán del conjunto de datos. El conjunto de datos ahora es el siguiente:

Fila Nombre Correo electrónico Edad Estado
1 Alegría alegría@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rosa rosa@gmail 23 NJ
4 Tim tim@gmail 42 OH
5 Rosa rosa@gmail 23 NJ

Si opta por especificar las claves, puede optar por eliminar las filas que coincidan con las palabras “nombre” y “correo electrónico”. Esto permite controlar mejor qué es una “fila duplicada” para el conjunto de datos. Al especificar “nombre” y “correo electrónico”, el conjunto de datos ahora es el siguiente:

Fila Nombre Correo electrónico Edad Estado
1 Alegría alegría@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rosa rosa@gmail 23 NJ

Algunas cosas a tener en cuenta:

  • Para que las filas se reconozcan como duplicadas, los valores distinguen entre mayúsculas y minúsculas. Todos los valores de las filas deben tener las mismas mayúsculas y minúsculas; esto se aplica a cualquier opción que elija (hacer coincidir filas enteras o Especificar claves).

  • Todos los valores se leen como cadenas.

  • La transformación Eliminar duplicados utiliza el comando dropDuplicates de Spark.

  • Cuando se utiliza la transformación Eliminar duplicados, la primera fila se mantiene y las demás filas se eliminan.

  • La transformación Eliminar duplicados no cambia el esquema del marco de datos. Si decide especificar claves, todos los campos se mantienen en el marco de datos resultante.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.