FlagDuplicateRows kelas - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

FlagDuplicateRows kelas

FlagDuplicateRowsTransformasi mengembalikan kolom baru dengan nilai tertentu di setiap baris yang menunjukkan apakah baris tersebut sama persis dengan baris sebelumnya dalam kumpulan data. Ketika kecocokan ditemukan, mereka ditandai sebagai duplikat. Kejadian awal tidak ditandai, karena tidak cocok dengan baris sebelumnya.

Contoh

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise

Output

Outputnya akan berupa PySpark DataFrame kolom tambahan flag_row yang menunjukkan apakah baris adalah duplikat atau tidak, berdasarkan source_column_1 kolom. Hasil `df_output` DataFrame akan berisi baris berikut:

``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```

flag_rowKolom menunjukkan apakah baris adalah duplikat atau tidak. `true_string` disetel ke “True”, dan `false_string` disetel ke “False”. `target_index` diatur ke 1, yang berarti bahwa flag_row kolom akan dimasukkan pada posisi kedua (indeks 1) dalam output. DataFrame

Metode

__call__ (spark_context, data_frame, target_column, true_string=default_true_string, false_string=default_false_string, target_index=Tidak ada)

FlagDuplicateRowsTransformasi mengembalikan kolom baru dengan nilai tertentu di setiap baris yang menunjukkan apakah baris tersebut sama persis dengan baris sebelumnya dalam kumpulan data. Ketika kecocokan ditemukan, mereka ditandai sebagai duplikat. Kejadian awal tidak ditandai, karena tidak cocok dengan baris sebelumnya.

  • true_string— Nilai yang akan dimasukkan jika baris cocok dengan baris sebelumnya.

  • false_string— Nilai yang akan dimasukkan jika barisnya unik.

  • target_column— Nama kolom baru yang disisipkan dalam dataset.

apply(cls, *args, **kwargs)

Warisan dari GlueTransform apply.

name(cls)

Warisan dari GlueTransform nama.

describeArgs(cls)

Warisan dari GlueTransform describeArgs.

describeReturn(cls)

Warisan dari GlueTransform describeReturn.

describeTransform(cls)

Warisan dari GlueTransform describeTransform.

describeErrors(cls)

Warisan dari GlueTransform describeErrors.

describe(cls)

Warisan dari GlueTransform describe.