Esempio Output — metodi —__call__apply nome describeArgs describeReturn describeTransform describeErrors describe

FlagDuplicateRows classe

La FlagDuplicateRows trasformazione restituisce una nuova colonna con un valore specificato in ogni riga che indica se quella riga corrisponde esattamente a una riga precedente del set di dati. Quando vengono trovate delle corrispondenze, vengono contrassegnate come duplicate. L'occorrenza iniziale non è contrassegnata, perché non corrisponde a una riga precedente.

Esempio


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.FlagDuplicateRows.apply(
        data_frame=input_df,
        spark_context=sc,
        target_column="flag_row",
        true_string="True",
        false_string="False",
        target_index=1
    )
except:
    print("Unexpected Error happened ")
    raise

Output

L'output sarà PySpark DataFrame con una colonna aggiuntiva flag_row che indica se una riga è duplicata o meno, in base alla colonna. source_column_1 Il `df_output` DataFrame risultante conterrà le seguenti righe:


```
+---------------+---------------+--------+
|source_column_1|source_column_2|flag_row|
+---------------+---------------+--------+
| 105.111| 13.12| False|
| 13.12| 13.12| True|
| null| 13.12| True|
| 13.12| 13.12| True|
| null| 13.12| True|
+---------------+---------------+--------+
```

La flag_row colonna indica se una riga è duplicata o meno. La `true_string` è impostata su «True» e la `false_string` è impostata su «False». Il `target_index` è impostato su 1, il che significa che la flag_row colonna verrà inserita nella seconda posizione (indice 1) nell'output. DataFrame

call (spark_context, data_frame, target_column, true_string=default_true_string, false_string=default_false_string, target_index=Nessuno)

La trasformazione FlagDuplicateRows restituisce una nuova colonna con un valore specificato in ogni riga che indica se quella riga corrisponde esattamente a una riga precedente del set di dati. Quando vengono trovate delle corrispondenze, vengono contrassegnate come duplicate. L'occorrenza iniziale non è contrassegnata, perché non corrisponde a una riga precedente.

true_string— Valore da inserire se la riga corrisponde a una riga precedente.
false_string— Valore da inserire se la riga è unica.
target_column— Nome della nuova colonna inserita nel set di dati.

apply(cls, *args, **kwargs)

Ereditato da GlueTransform apply.

name(cls)

Ereditato da GlueTransform nome.

describeArgs(cls)

Ereditato da GlueTransform describeArgs.

describeReturn(cls)

Ereditato da GlueTransform describeReturn.

describeTransform(cls)

Ereditato da GlueTransform describeTransform.

describeErrors(cls)

Ereditato da GlueTransform describeErrors.

describe(cls)

Ereditato da GlueTransform describe.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

FillWithMode

RemoveDuplicates