FlagDuplicatesInColumn 类 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

FlagDuplicatesInColumn 类

FlagDuplicatesInColumn 转换会返回一个新列,每行都有指定值,指示该行的源列中的值是否与源列前面的行中的值匹配。找到匹配项后,它们会被标记为重复项。第一次出现不会被标记,因为它与前面的行不匹配。

示例

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

输出

FlagDuplicatesInColumn 转换会将新列“flag_col”添加至“df_output”DataFrame。此列将包含一个字符串值,表示相应行在“city”列中是否有重复的值。如果某行具有重复的“city”值,则“flag_col”将包含“true_string”值“True”。如果某行具有唯一的“city”值,则“flag_col”将包含“false_string”值“False”。

生成的“df_output”DataFrame 将包含原始“datasource1”DataFrame 中的所有列,以及用于表示重复的“city”值的“flag_col”附加列。

方法

__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

FlagDuplicatesInColumn 转换会返回一个新列,每行都有指定值,指示该行的源列中的值是否与源列前面的行中的值匹配。找到匹配项后,它们会被标记为重复项。第一次出现不会被标记,因为它与前面的行不匹配。

  • source_column – 源列的名称。

  • target_column – 目标列的名称。

  • true_string – 当源列的值与该列中前面的值重复时,在目标列中插入该字符串。

  • false_string – 当源列的值与该列中前面的值不同时,在目标列中插入该字符串。

apply(cls, *args, **kwargs)

继承自 GlueTransform apply

name(cls)

继承自 GlueTransform name

describeArgs(cls)

继承自 GlueTransform describeArgs

describeReturn(cls)

继承自 GlueTransform describeReturn

describeTransform(cls)

继承自 GlueTransform describeTransform

describeErrors(cls)

继承自 GlueTransform describeErrors

describe(cls)

继承自 GlueTransform describe