翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
FlagDuplicatesInColumn クラス
FlagDuplicatesInColumn
変換は、各行に指定された値を持つ新しい列を返します。この列は、行のソース列の値がソース列の前の行の値と一致するかどうかを示します。一致が見つかると、重複としてフラグが付けられます。最初の出現は、以前の行と一致しないため、フラグは付けられません。
例
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise
出力
FlagDuplicatesInColumn
変換により、新しい列「flag_col」が「df_output」に追加されます DataFrame。この列には、対応する行の「city」列に重複する値があるかどうかを示す文字列値が含まれます。行に重複する「city」値がある場合、「flag_col」には「true_string」値「True」が含まれます。行に一意の「city」値がある場合、「flag_col」には「false_string」値「False」が含まれます。
結果の「df_output DataFrame 」には、元の「datasource1」のすべての列と DataFrame、重複する「city」値を示す追加の「flag_col」列が含まれます。
方法
__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)
FlagDuplicatesInColumn
変換は、各行に指定された値を持つ新しい列を返します。この列は、行のソース列の値がソース列の前の行の値と一致するかどうかを示します。一致が見つかると、重複としてフラグが付けられます。最初の出現は、以前の行と一致しないため、フラグは付けられません。
-
source_column
- ソース列の名前。 -
target_column
- ターゲット列の名前。 -
true_string
- ソース列の値がその列の以前の値と重複した場合にターゲット列に挿入される文字列。 -
false_string
– ソース列の値がその列の以前の値と異なる場合にターゲット列に挿入される文字列。
apply(cls, *args, **kwargs)
継承元は GlueTransform
apply。
name(cls)
継承元は GlueTransform
name。
describeArgs(cls)
継承元は GlueTransform
describeArgs。
describeReturn(cls)
継承元は GlueTransform
describeReturn。
describeTransform(cls)
継承元は GlueTransform
describeTransform。
describeErrors(cls)
継承元は GlueTransform
describeErrors。
describe(cls)
継承元は GlueTransform
説明。