RemoveDuplicates class - AWS Glue

RemoveDuplicates class

選択したソース列で重複する値が検出された場合、RemoveDuplicates 変換によって行全体が削除されます。

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise

出力

出力は、source_column_1 列に基づいて重複が削除された PySpark DataFrame になります。結果の「df_output」 DataFrame には、次の行が含まれます。

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```

「13.12」と「null」の source_column_1 値を持つ行は、source_column_1 列に基づいて重複が削除されているため、出力 DataFrame に 1 回だけ表示されることに注意してください。

方法

__call__(spark_context, data_frame, source_column)

選択したソース列で重複する値が検出された場合、RemoveDuplicates 変換によって行全体が削除されます。

  • source_column - 既存の列の名前。

apply(cls, *args, **kwargs)

継承元は GlueTransform apply

name(cls)

継承元は GlueTransform name

describeArgs(cls)

継承元は GlueTransform describeArgs

describeReturn(cls)

継承元は GlueTransform describeReturn

describeTransform(cls)

継承元は GlueTransform describeTransform

describeErrors(cls)

継承元は GlueTransform describeErrors

describe(cls)

継承元は GlueTransform 説明