RemoveDuplicates clase - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

RemoveDuplicates clase

La RemoveDuplicates transformación elimina una fila completa si se encuentra un valor duplicado en una columna de origen seleccionada.

Ejemplo

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise

Salida

El resultado será un y se eliminarán PySpark DataFrame los duplicados en función de la source_column_1 columna. El `df_output` DataFrame resultante contendrá las siguientes filas:

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```

Ten en cuenta que las filas con source_column_1 valores de 13,12 y nulos aparecen solo una vez en la salida, ya que los duplicados se han eliminado en función de la columna DataFrame. source_column_1

Métodos

__call__ (spark_context, data_frame, source_column)

La RemoveDuplicates transformación elimina una fila completa si se encuentra un valor duplicado en una columna de origen seleccionada.

  • source_column: el nombre de una columna existente.

apply(cls, *args, **kwargs)

Heredado de GlueTransform apply.

name(cls)

Heredado de GlueTransform name.

describeArgs(cls)

Heredado de GlueTransform describeArgs.

describeReturn(cls)

Heredado de GlueTransform describeReturn.

describeTransform(cls)

Heredado de GlueTransform describeTransform.

describeErrors(cls)

Heredado de GlueTransform describeErrors.

describe(cls)

Heredado de GlueTransform describe.