Esempio Output — metodi —__call__apply nome describeArgs describeReturn describeTransform describeErrors describe

RemoveDuplicates classe

La RemoveDuplicates trasformazione elimina un'intera riga, se viene rilevato un valore duplicato in una colonna di origine selezionata.

Esempio


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.RemoveDuplicates.apply(
        data_frame=input_df,
        spark_context=sc,
        source_column="source_column_1"
    )
except:
    print("Unexpected Error happened ")
    raise

Output

L'output sarà un PySpark DataFrame con i duplicati rimossi in base alla colonna. source_column_1 Il `df_output` DataFrame risultante conterrà le seguenti righe:


```
+---------------+---------------+
|source_column_1|source_column_2|
+---------------+---------------+
| 105.111| 13.12|
| 13.12| 13.12|
| null| 13.12|
+---------------+---------------+
```

Nota che le righe con source_column_1 i valori `13.12` e `null` appaiono solo una volta nell'output DataFrame, poiché i duplicati sono stati rimossi in base alla colonna. source_column_1

call (spark_context, data_frame, source_column)

La RemoveDuplicates trasformazione elimina un'intera riga, se viene rilevato un valore duplicato in una colonna sorgente selezionata.

source_column: il nome di una colonna esistente.

apply(cls, *args, **kwargs)

Ereditato da GlueTransform apply.

name(cls)

Ereditato da GlueTransform nome.

describeArgs(cls)

Ereditato da GlueTransform describeArgs.

describeReturn(cls)

Ereditato da GlueTransform describeReturn.

describeTransform(cls)

Ereditato da GlueTransform describeTransform.

describeErrors(cls)

Ereditato da GlueTransform describeErrors.

describe(cls)

Ereditato da GlueTransform describe.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

FlagDuplicateRows

MonthName