Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
RemoveDuplicates classe
La RemoveDuplicates
trasformazione elimina un'intera riga, se viene rilevato un valore duplicato in una colonna di origine selezionata.
Esempio
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise
Output
L'output sarà un PySpark DataFrame con i duplicati rimossi in base alla colonna. source_column_1
Il `df_output` DataFrame risultante conterrà le seguenti righe:
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```
Nota che le righe con source_column_1
i valori `13.12` e `null` appaiono solo una volta nell'output DataFrame, poiché i duplicati sono stati rimossi in base alla colonna. source_column_1
Metodi
__call__ (spark_context, data_frame, source_column)
La RemoveDuplicates
trasformazione elimina un'intera riga, se viene rilevato un valore duplicato in una colonna sorgente selezionata.
-
source_column
: il nome di una colonna esistente.
apply(cls, *args, **kwargs)
Ereditato da GlueTransform
apply.
name(cls)
Ereditato da GlueTransform
name.
describeArgs(cls)
Ereditato da GlueTransform
describeArgs.
describeReturn(cls)
Ereditato da GlueTransform
describeReturn.
describeTransform(cls)
Ereditato da GlueTransform
describeTransform.
describeErrors(cls)
Ereditato da GlueTransform
describeErrors.
describe(cls)
Ereditato da GlueTransform
describe.