FlagDuplicateRows classe - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

FlagDuplicateRows classe

La FlagDuplicateRows transformation renvoie une nouvelle colonne avec une valeur spécifiée dans chaque ligne qui indique si cette ligne correspond exactement à une ligne précédente de l'ensemble de données. Lorsque des correspondances sont trouvées, elles sont signalées comme des doublons. L'occurrence initiale n'est pas signalée, car elle ne correspond pas à une ligne précédente.

Exemple

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise

Sortie

La sortie sera une PySpark DataFrame avec une colonne supplémentaire flag_row qui indique si une ligne est un doublon ou non, en fonction de la source_column_1 colonne. Le fichier `df_output` qui en résultera DataFrame contiendra les lignes suivantes :

``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```

La flag_row colonne indique si une ligne est un doublon ou non. Le `true_string` est défini sur « True », et le `false_string` est défini sur « False ». Le `target_index` est défini sur 1, ce qui signifie que la flag_row colonne sera insérée à la deuxième position (index 1) dans la sortie. DataFrame

Méthodes

__call__ (spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, FALSE_STRING=DEFAULT_FALSE_STRING, TARGET_INDEX=NONE)

La FlagDuplicateRows transformation renvoie une nouvelle colonne avec une valeur spécifiée dans chaque ligne qui indique si cette ligne correspond exactement à une ligne précédente de l'ensemble de données. Lorsque des correspondances sont trouvées, elles sont signalées comme des doublons. L'occurrence initiale n'est pas signalée, car elle ne correspond pas à une ligne précédente.

  • true_string— Valeur à insérer si la ligne correspond à une ligne précédente.

  • false_string— Valeur à insérer si la ligne est unique.

  • target_column— Nom de la nouvelle colonne insérée dans le jeu de données.

apply(cls, *args, **kwargs)

Hérité de GlueTransform s'appliquent.

name(cls)

Hérité de GlueTransform name.

describeArgs(cls)

Hérité de GlueTransform describeArgs.

describeReturn(cls)

Hérité de GlueTransform describeReturn.

describeTransform(cls)

Hérité de GlueTransform describeTransform.

describeErrors(cls)

Hérité de GlueTransform describeErrors.

describe(cls)

Hérité de GlueTransform describe.