Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

FlagDuplicateRows classe

Modalità Focus
FlagDuplicateRows classe - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

La FlagDuplicateRows trasformazione restituisce una nuova colonna con un valore specificato in ogni riga che indica se quella riga corrisponde esattamente a una riga precedente del set di dati. Quando vengono trovate delle corrispondenze, vengono contrassegnate come duplicate. L'occorrenza iniziale non è contrassegnata, perché non corrisponde a una riga precedente.

Esempio

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise

Output

L'output sarà PySpark DataFrame con una colonna aggiuntiva flag_row che indica se una riga è duplicata o meno, in base alla colonna. source_column_1 Il `df_output` DataFrame risultante conterrà le seguenti righe:

``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```

La flag_row colonna indica se una riga è duplicata o meno. La `true_string` è impostata su «True» e la `false_string` è impostata su «False». Il `target_index` è impostato su 1, il che significa che la flag_row colonna verrà inserita nella seconda posizione (indice 1) nell'output. DataFrame

Metodi

__call__ (spark_context, data_frame, target_column, true_string=default_true_string, false_string=default_false_string, target_index=Nessuno)

La trasformazione FlagDuplicateRows restituisce una nuova colonna con un valore specificato in ogni riga che indica se quella riga corrisponde esattamente a una riga precedente del set di dati. Quando vengono trovate delle corrispondenze, vengono contrassegnate come duplicate. L'occorrenza iniziale non è contrassegnata, perché non corrisponde a una riga precedente.

  • true_string— Valore da inserire se la riga corrisponde a una riga precedente.

  • false_string— Valore da inserire se la riga è unica.

  • target_column— Nome della nuova colonna inserita nel set di dati.

apply(cls, *args, **kwargs)

Ereditato da GlueTransform apply.

name(cls)

Ereditato da GlueTransform nome.

describeArgs(cls)

Ereditato da GlueTransform describeArgs.

describeReturn(cls)

Ereditato da GlueTransform describeReturn.

describeTransform(cls)

Ereditato da GlueTransform describeTransform.

describeErrors(cls)

Ereditato da GlueTransform describeErrors.

describe(cls)

Ereditato da GlueTransform describe.

Argomento successivo:

RemoveDuplicates

Argomento precedente:

FillWithMode
PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.