Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
FlagDuplicateRows kelas
FlagDuplicateRows
Transformasi mengembalikan kolom baru dengan nilai tertentu di setiap baris yang menunjukkan apakah baris tersebut sama persis dengan baris sebelumnya dalam kumpulan data. Ketika kecocokan ditemukan, mereka ditandai sebagai duplikat. Kejadian awal tidak ditandai, karena tidak cocok dengan baris sebelumnya.
Contoh
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise
Output
Outputnya akan berupa PySpark DataFrame kolom tambahan flag_row
yang menunjukkan apakah baris adalah duplikat atau tidak, berdasarkan source_column_1
kolom. Hasil `df_output` DataFrame akan berisi baris berikut:
``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```
flag_row
Kolom menunjukkan apakah baris adalah duplikat atau tidak. `true_string` disetel ke “True”, dan `false_string` disetel ke “False”. `target_index` diatur ke 1, yang berarti bahwa flag_row
kolom akan dimasukkan pada posisi kedua (indeks 1) dalam output. DataFrame
Metode
__call__ (spark_context, data_frame, target_column, true_string=default_true_string, false_string=default_false_string, target_index=Tidak ada)
FlagDuplicateRows
Transformasi mengembalikan kolom baru dengan nilai tertentu di setiap baris yang menunjukkan apakah baris tersebut sama persis dengan baris sebelumnya dalam kumpulan data. Ketika kecocokan ditemukan, mereka ditandai sebagai duplikat. Kejadian awal tidak ditandai, karena tidak cocok dengan baris sebelumnya.
-
true_string
— Nilai yang akan dimasukkan jika baris cocok dengan baris sebelumnya. -
false_string
— Nilai yang akan dimasukkan jika barisnya unik. -
target_column
— Nama kolom baru yang disisipkan dalam dataset.
apply(cls, *args, **kwargs)
Warisan dari GlueTransform
apply.
name(cls)
Warisan dari GlueTransform
nama.
describeArgs(cls)
Warisan dari GlueTransform
describeArgs.
describeReturn(cls)
Warisan dari GlueTransform
describeReturn.
describeTransform(cls)
Warisan dari GlueTransform
describeTransform.
describeErrors(cls)
Warisan dari GlueTransform
describeErrors.
describe(cls)
Warisan dari GlueTransform
describe.