RemoveDuplicates classe - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

RemoveDuplicates classe

La RemoveDuplicates transformation supprime une ligne entière si une valeur dupliquée est détectée dans une colonne source sélectionnée.

Exemple

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise

Sortie

Le résultat sera un PySpark DataFrame avec les doublons supprimés en fonction de la source_column_1 colonne. Le fichier `df_output` qui en résultera DataFrame contiendra les lignes suivantes :

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```

Notez que les lignes avec les source_column_1 valeurs « 13.12 » et « null » n'apparaissent qu'une seule fois dans la sortie DataFrame, car les doublons ont été supprimés en fonction de la colonne. source_column_1

Méthodes

__call__ (spark_context, data_frame, source_column)

La RemoveDuplicates transformation supprime une ligne entière si une valeur dupliquée est détectée dans une colonne source sélectionnée.

  • source_column : nom d’une colonne existante.

apply(cls, *args, **kwargs)

Hérité de GlueTransform s'appliquent.

name(cls)

Hérité de GlueTransform name.

describeArgs(cls)

Hérité de GlueTransform describeArgs.

describeReturn(cls)

Hérité de GlueTransform describeReturn.

describeTransform(cls)

Hérité de GlueTransform describeTransform.

describeErrors(cls)

Hérité de GlueTransform describeErrors.

describe(cls)

Hérité de GlueTransform describe.