FlagDuplicateRows クラス - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

FlagDuplicateRows クラス

FlagDuplicateRows 変換は、各行に指定された値を持つ新しい列を返します。この列は、その行がデータセット内の以前の行と完全に一致するかどうかを示します。一致が見つかると、重複としてフラグが付けられます。最初の出現は、前の行と一致しないため、フラグは付けられません。

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise

出力

出力は、列に基づいて、行が重複しているかどうかflag_rowを示す追加のsource_column_1列 PySpark DataFrame を持つ になります。結果の `df_output DataFrame ` には、次の行が含まれます。

``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```

flag_row 列は、行が重複しているかどうかを示します。「true_string」は「True」に設定され、「false_string」は「False」に設定されます。「target_index」は 1 に設定されます。つまり、flag_row列は出力 の 2 番目の位置 (インデックス 1) に挿入されます DataFrame。

方法

__call__(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)

FlagDuplicateRows 変換は、各行に指定された値を持つ新しい列を返します。この列は、その行がデータセット内の以前の行と完全に一致するかどうかを示します。一致が見つかると、重複としてフラグが付けられます。最初の出現は、前の行と一致しないため、フラグは付けられません。

  • true_string – 行が前の行と一致する場合に挿入される値。

  • false_string – 行が一意である場合に挿入される値。

  • target_column - データセットに挿入される新しい列の名前。

apply(cls, *args, **kwargs)

継承元は GlueTransform apply

name(cls)

継承元は GlueTransform name

describeArgs(cls)

継承元は GlueTransform describeArgs

describeReturn(cls)

継承元は GlueTransform describeReturn

describeTransform(cls)

継承元は GlueTransform describeTransform

describeErrors(cls)

継承元は GlueTransform describeErrors

describe(cls)

継承元は GlueTransform 説明