Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
RemoveDuplicates kelas
RemoveDuplicates
Transformasi menghapus seluruh baris, jika nilai duplikat ditemui di kolom sumber yang dipilih.
Contoh
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise
Output
Outputnya akan a PySpark DataFrame dengan duplikat dihapus berdasarkan source_column_1
kolom. Hasil `df_output` DataFrame akan berisi baris berikut:
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```
Perhatikan bahwa baris dengan source_column_1
nilai `13.12` dan `null` hanya muncul sekali dalam output DataFrame, karena duplikat telah dihapus berdasarkan kolom. source_column_1
Metode
__call__ (spark_context, data_frame, source_column)
RemoveDuplicates
Transformasi menghapus seluruh baris, jika nilai duplikat ditemui di kolom sumber yang dipilih.
-
source_column
— Nama kolom yang ada.
apply(cls, *args, **kwargs)
Warisan dari GlueTransform
apply.
name(cls)
Warisan dari GlueTransform
nama.
describeArgs(cls)
Warisan dari GlueTransform
describeArgs.
describeReturn(cls)
Warisan dari GlueTransform
describeReturn.
describeTransform(cls)
Warisan dari GlueTransform
describeTransform.
describeErrors(cls)
Warisan dari GlueTransform
describeErrors.
describe(cls)
Warisan dari GlueTransform
describe.