FlagDuplicatesInColumn クラス - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

FlagDuplicatesInColumn クラス

FlagDuplicatesInColumn 変換は、各行に指定された値を持つ新しい列を返します。この列は、行のソース列の値がソース列の前の行の値と一致するかどうかを示します。一致が見つかると、重複としてフラグが付けられます。最初の出現は、以前の行と一致しないため、フラグは付けられません。

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

出力

FlagDuplicatesInColumn 変換により、新しい列「flag_col」が「df_output」に追加されます DataFrame。この列には、対応する行の「city」列に重複する値があるかどうかを示す文字列値が含まれます。行に重複する「city」値がある場合、「flag_col」には「true_string」値「True」が含まれます。行に一意の「city」値がある場合、「flag_col」には「false_string」値「False」が含まれます。

結果の「df_output DataFrame 」には、元の「datasource1」のすべての列と DataFrame、重複する「city」値を示す追加の「flag_col」列が含まれます。

方法

__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

FlagDuplicatesInColumn 変換は、各行に指定された値を持つ新しい列を返します。この列は、行のソース列の値がソース列の前の行の値と一致するかどうかを示します。一致が見つかると、重複としてフラグが付けられます。最初の出現は、以前の行と一致しないため、フラグは付けられません。

  • source_column - ソース列の名前。

  • target_column - ターゲット列の名前。

  • true_string - ソース列の値がその列の以前の値と重複した場合にターゲット列に挿入される文字列。

  • false_string – ソース列の値がその列の以前の値と異なる場合にターゲット列に挿入される文字列。

apply(cls, *args, **kwargs)

継承元は GlueTransform apply

name(cls)

継承元は GlueTransform name

describeArgs(cls)

継承元は GlueTransform describeArgs

describeReturn(cls)

継承元は GlueTransform describeReturn

describeTransform(cls)

継承元は GlueTransform describeTransform

describeErrors(cls)

継承元は GlueTransform describeErrors

describe(cls)

継承元は GlueTransform 説明