翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
FlagDuplicateRows クラス
FlagDuplicateRows
変換は、各行に指定された値を持つ新しい列を返します。この列は、その行がデータセット内の以前の行と完全に一致するかどうかを示します。一致が見つかると、重複としてフラグが付けられます。最初の出現は、前の行と一致しないため、フラグは付けられません。
例
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise
出力
出力は、列に基づいて、行が重複しているかどうかflag_row
を示す追加のsource_column_1
列 PySpark DataFrame を持つ になります。結果の `df_output DataFrame ` には、次の行が含まれます。
``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```
flag_row
列は、行が重複しているかどうかを示します。「true_string」は「True」に設定され、「false_string」は「False」に設定されます。「target_index」は 1 に設定されます。つまり、flag_row
列は出力 の 2 番目の位置 (インデックス 1) に挿入されます DataFrame。
方法
__call__(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)
FlagDuplicateRows
変換は、各行に指定された値を持つ新しい列を返します。この列は、その行がデータセット内の以前の行と完全に一致するかどうかを示します。一致が見つかると、重複としてフラグが付けられます。最初の出現は、前の行と一致しないため、フラグは付けられません。
-
true_string
– 行が前の行と一致する場合に挿入される値。 -
false_string
– 行が一意である場合に挿入される値。 -
target_column
- データセットに挿入される新しい列の名前。
apply(cls, *args, **kwargs)
継承元は GlueTransform
apply。
name(cls)
継承元は GlueTransform
name。
describeArgs(cls)
継承元は GlueTransform
describeArgs。
describeReturn(cls)
継承元は GlueTransform
describeReturn。
describeTransform(cls)
継承元は GlueTransform
describeTransform。
describeErrors(cls)
継承元は GlueTransform
describeErrors。
describe(cls)
継承元は GlueTransform
説明。