Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
RemoveDuplicates clase
La RemoveDuplicates
transformación elimina una fila completa si se encuentra un valor duplicado en una columna de origen seleccionada.
Ejemplo
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise
Salida
El resultado será un y se eliminarán PySpark DataFrame los duplicados en función de la source_column_1
columna. El `df_output` DataFrame resultante contendrá las siguientes filas:
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```
Ten en cuenta que las filas con source_column_1
valores de 13,12 y nulos aparecen solo una vez en la salida, ya que los duplicados se han eliminado en función de la columna DataFrame. source_column_1
Métodos
__call__ (spark_context, data_frame, source_column)
La RemoveDuplicates
transformación elimina una fila completa si se encuentra un valor duplicado en una columna de origen seleccionada.
-
source_column
: el nombre de una columna existente.
apply(cls, *args, **kwargs)
Heredado de GlueTransform
apply.
name(cls)
Heredado de GlueTransform
name.
describeArgs(cls)
Heredado de GlueTransform
describeArgs.
describeReturn(cls)
Heredado de GlueTransform
describeReturn.
describeTransform(cls)
Heredado de GlueTransform
describeTransform.
describeErrors(cls)
Heredado de GlueTransform
describeErrors.
describe(cls)
Heredado de GlueTransform
describe.