Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
La FlagDuplicateRows
trasformazione restituisce una nuova colonna con un valore specificato in ogni riga che indica se quella riga corrisponde esattamente a una riga precedente del set di dati. Quando vengono trovate delle corrispondenze, vengono contrassegnate come duplicate. L'occorrenza iniziale non è contrassegnata, perché non corrisponde a una riga precedente.
Esempio
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *
sc = SparkContext()
spark = SparkSession(sc)
input_df = spark.createDataFrame(
[
(105.111, 13.12),
(13.12, 13.12),
(None, 13.12),
(13.12, 13.12),
(None, 13.12),
],
["source_column_1", "source_column_2"],
)
try:
df_output = data_quality.FlagDuplicateRows.apply(
data_frame=input_df,
spark_context=sc,
target_column="flag_row",
true_string="True",
false_string="False",
target_index=1
)
except:
print("Unexpected Error happened ")
raise
Output
L'output sarà PySpark DataFrame con una colonna aggiuntiva flag_row
che indica se una riga è duplicata o meno, in base alla colonna. source_column_1
Il `df_output` DataFrame risultante conterrà le seguenti righe:
```
+---------------+---------------+--------+
|source_column_1|source_column_2|flag_row|
+---------------+---------------+--------+
| 105.111| 13.12| False|
| 13.12| 13.12| True|
| null| 13.12| True|
| 13.12| 13.12| True|
| null| 13.12| True|
+---------------+---------------+--------+
```
La flag_row
colonna indica se una riga è duplicata o meno. La `true_string` è impostata su «True» e la `false_string` è impostata su «False». Il `target_index` è impostato su 1, il che significa che la flag_row
colonna verrà inserita nella seconda posizione (indice 1) nell'output. DataFrame
Metodi
__call__ (spark_context, data_frame, target_column, true_string=default_true_string, false_string=default_false_string, target_index=Nessuno)
La trasformazione FlagDuplicateRows
restituisce una nuova colonna con un valore specificato in ogni riga che indica se quella riga corrisponde esattamente a una riga precedente del set di dati. Quando vengono trovate delle corrispondenze, vengono contrassegnate come duplicate. L'occorrenza iniziale non è contrassegnata, perché non corrisponde a una riga precedente.
-
true_string
— Valore da inserire se la riga corrisponde a una riga precedente. -
false_string
— Valore da inserire se la riga è unica. -
target_column
— Nome della nuova colonna inserita nel set di dati.
apply(cls, *args, **kwargs)
Ereditato da GlueTransform
apply.
name(cls)
Ereditato da GlueTransform
nome.
describeArgs(cls)
Ereditato da GlueTransform
describeArgs.
describeReturn(cls)
Ereditato da GlueTransform
describeReturn.
describeTransform(cls)
Ereditato da GlueTransform
describeTransform.
describeErrors(cls)
Ereditato da GlueTransform
describeErrors.
describe(cls)
Ereditato da GlueTransform
describe.