FlagDuplicatesInColumn classe - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

FlagDuplicatesInColumn classe

La FlagDuplicatesInColumn trasformazione restituisce una nuova colonna con un valore specificato in ogni riga che indica se il valore nella colonna di origine della riga corrisponde a un valore in una riga precedente della colonna di origine. Quando vengono trovate delle corrispondenze, vengono contrassegnate come duplicate. L'occorrenza iniziale non è contrassegnata, perché non corrisponde a una riga precedente.

Esempio

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

Output

La FlagDuplicatesInColumn trasformazione aggiungerà una nuova colonna `flag_col` al `df_output`. DataFrame Questa colonna conterrà un valore di stringa che indica se la riga corrispondente ha o meno un valore duplicato nella colonna `city`. Se una riga ha un valore `city` duplicato, `flag_col` conterrà il valore `true_string` «True». Se una riga ha un valore `city` unico, `flag_col` conterrà il valore `false_string` «False».

Il `df_output` risultante conterrà tutte le colonne della `datasource1` originale, più la colonna `flag_col` aggiuntiva che indica i valori DataFrame `city` duplicati. DataFrame

Metodi

__call__ (spark_context, data_frame, source_column, target_column, true_string=default_true_string, false_string=default_false_string)

La FlagDuplicatesInColumn trasformazione restituisce una nuova colonna con un valore specificato in ogni riga che indica se il valore nella colonna di origine della riga corrisponde a un valore in una riga precedente della colonna di origine. Quando vengono trovate delle corrispondenze, vengono contrassegnate come duplicate. L'occorrenza iniziale non è contrassegnata, perché non corrisponde a una riga precedente.

  • source_column— Nome della colonna di origine.

  • target_column— Nome della colonna di destinazione.

  • true_string— Stringa da inserire nella colonna di destinazione quando un valore della colonna di origine duplica un valore precedente in quella colonna.

  • false_string— Stringa da inserire nella colonna di destinazione quando il valore di una colonna di origine è diverso dai valori precedenti in quella colonna.

apply(cls, *args, **kwargs)

Ereditato da GlueTransform apply.

name(cls)

Ereditato da GlueTransform name.

describeArgs(cls)

Ereditato da GlueTransform describeArgs.

describeReturn(cls)

Ereditato da GlueTransform describeReturn.

describeTransform(cls)

Ereditato da GlueTransform describeTransform.

describeErrors(cls)

Ereditato da GlueTransform describeErrors.

describe(cls)

Ereditato da GlueTransform describe.