翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
RemoveDuplicates クラス
選択したソース列で重複した値が発生した場合、RemoveDuplicates
変換は行全体を削除します。
例
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise
出力
出力は PySpark DataFrame になり、source_column_1
列に基づいて重複が削除されます。結果の `df_output DataFrame ` には、次の行が含まれます。
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```
source_column_1
値が `13.12` および `null` の行は、source_column_1
列に基づいて重複が削除されるため DataFrame、出力 に 1 回だけ表示されることに注意してください。
方法
__call__(spark_context、data_frame、source_column)
選択したソース列で重複した値が発生した場合、RemoveDuplicates
変換は行全体を削除します。
-
source_column
- 既存の列の名前。
apply(cls, *args, **kwargs)
継承元は GlueTransform
apply。
name(cls)
継承元は GlueTransform
name。
describeArgs(cls)
継承元は GlueTransform
describeArgs。
describeReturn(cls)
継承元は GlueTransform
describeReturn。
describeTransform(cls)
継承元は GlueTransform
describeTransform。
describeErrors(cls)
継承元は GlueTransform
describeErrors。
describe(cls)
継承元は GlueTransform
説明。