As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
RemoveDuplicates classe
A RemoveDuplicates
transformação exclui uma linha inteira, se um valor duplicado for encontrado em uma coluna de origem selecionada.
Exemplo
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise
Saída
A saída será PySpark DataFrame com as duplicatas removidas com base na source_column_1
coluna. O `df_output` DataFrame resultante conterá as seguintes linhas:
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```
Observe que as linhas com source_column_1
valores de `13,12` e `null` aparecem somente uma vez na saída DataFrame, pois as duplicatas foram removidas com base na coluna. source_column_1
Métodos
__call__ (spark_context, data_frame, source_column)
A RemoveDuplicates
transformação exclui uma linha inteira, se um valor duplicado for encontrado em uma coluna de origem selecionada.
-
source_column
: o nome de uma coluna existente.
apply(cls, *args, **kwargs)
Herdado de GlueTransform
apply.
name(cls)
Herdado de GlueTransform
name.
describeArgs(cls)
Herdado de GlueTransform
describeArgs.
describeReturn(cls)
Herdado de GlueTransform
describeReturn.
describeTransform(cls)
Herdado de GlueTransform
describeTransform.
describeErrors(cls)
Herdado de GlueTransform
describeErrors.
describe(cls)
Herdado de GlueTransform
describe.