RemoveDuplicates classe - AWS União

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

RemoveDuplicates classe

A RemoveDuplicates transformação exclui uma linha inteira, se um valor duplicado for encontrado em uma coluna de origem selecionada.

Exemplo

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise

Saída

A saída será PySpark DataFrame com as duplicatas removidas com base na source_column_1 coluna. O `df_output` DataFrame resultante conterá as seguintes linhas:

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```

Observe que as linhas com source_column_1 valores de `13,12` e `null` aparecem somente uma vez na saída DataFrame, pois as duplicatas foram removidas com base na coluna. source_column_1

Métodos

__call__ (spark_context, data_frame, source_column)

A RemoveDuplicates transformação exclui uma linha inteira, se um valor duplicado for encontrado em uma coluna de origem selecionada.

  • source_column: o nome de uma coluna existente.

apply(cls, *args, **kwargs)

Herdado de GlueTransform apply.

name(cls)

Herdado de GlueTransform name.

describeArgs(cls)

Herdado de GlueTransform describeArgs.

describeReturn(cls)

Herdado de GlueTransform describeReturn.

describeTransform(cls)

Herdado de GlueTransform describeTransform.

describeErrors(cls)

Herdado de GlueTransform describeErrors.

describe(cls)

Herdado de GlueTransform describe.