示例输出 – 方法 –__call__apply 名称 describeArgs describeReturn describeTransform describeErrors describe

FlagDuplicatesInColumn 类

FlagDuplicatesInColumn 转换会返回一个新列，每行都有指定值，指示该行的源列中的值是否与源列前面的行中的值匹配。找到匹配项后，它们会被标记为重复项。第一次出现不会被标记，因为它与前面的行不匹配。

示例


from pyspark.context import SparkContext
from pyspark.sql import SparkSession      
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data")

try:
    df_output = column.FlagDuplicatesInColumn.apply(
        data_frame=datasource1,
        spark_context=sc,
        source_column="city",
        target_column="flag_col",
        true_string="True",
        false_string="False"
    )
except:
    print("Unexpected Error happened ")
    raise

输出

FlagDuplicatesInColumn 转换会将新列“flag_col”添加至“df_output”DataFrame。此列将包含一个字符串值，表示相应行在“city”列中是否有重复的值。如果某行具有重复的“city”值，则“flag_col”将包含“true_string”值“True”。如果某行具有唯一的“city”值，则“flag_col”将包含“false_string”值“False”。

生成的“df_output”DataFrame 将包含原始“datasource1”DataFrame 中的所有列，以及用于表示重复的“city”值的“flag_col”附加列。

call(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

source_column – 源列的名称。
target_column – 目标列的名称。
true_string – 当源列的值与该列中前面的值重复时，在目标列中插入该字符串。
false_string – 当源列的值与该列中前面的值不同时，在目标列中插入该字符串。

apply(cls, *args, **kwargs)

继承自 GlueTransform apply。

name(cls)

继承自 GlueTransform 名称。

describeArgs(cls)

继承自 GlueTransform describeArgs。

describeReturn(cls)

继承自 GlueTransform describeReturn。

describeTransform(cls)

继承自 GlueTransform describeTransform。

describeErrors(cls)

继承自 GlueTransform describeErrors。

describe(cls)

继承自 GlueTransform describe。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

UnnestFrame

FormatPhoneNumber