FlagDuplicatesInColumn classe - AWS Glue

FlagDuplicatesInColumn classe

A FlagDuplicatesInColumn transformação retorna uma nova coluna com um valor especificado em cada linha que indica se o valor na coluna de origem da linha corresponde a um valor em uma linha anterior da coluna de origem. Quando as correspondências são encontradas, elas são marcadas como duplicatas. A ocorrência inicial não é sinalizada porque não corresponde a uma linha anterior.

Exemplo

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

Saída

A FlagDuplicatesInColumn transformação adicionará uma nova coluna `flag_col` ao `df_output`. DataFrame Essa coluna conterá um valor de string indicando se a linha correspondente tem um valor duplicado na coluna `cidade` ou não. Se uma linha tiver um valor `cidade` duplicado, o `flag_col` conterá o valor `true_string` “True”. Se uma linha tiver um valor exclusivo de `cidade`, o `flag_col` conterá o valor `false_string` “False”.

O `df_output` resultante DataFrame conterá todas as colunas do `datasource1` original, mais a coluna `flag_col` adicional indicando valores duplicados de `cidade`. DataFrame

Métodos

__call__ (spark_context, data_frame, source_column, target_column, true_string=default_true_string, false_string=default_false_string)

A FlagDuplicatesInColumn transformação retorna uma nova coluna com um valor especificado em cada linha que indica se o valor na coluna de origem da linha corresponde a um valor em uma linha anterior da coluna de origem. Quando as correspondências são encontradas, elas são marcadas como duplicatas. A ocorrência inicial não é sinalizada porque não corresponde a uma linha anterior.

  • source_column— Nome da coluna de origem.

  • target_column— Nome da coluna de destino.

  • true_string— Cadeia de caracteres a ser inserida na coluna de destino quando o valor da coluna de origem duplica um valor anterior nessa coluna.

  • false_string— Cadeia de caracteres a ser inserida na coluna de destino quando o valor da coluna de origem é diferente dos valores anteriores dessa coluna.

apply(cls, *args, **kwargs)

Herdado de GlueTransform apply.

name(cls)

Herdado de GlueTransform name.

describeArgs(cls)

Herdado de GlueTransform describeArgs.

describeReturn(cls)

Herdado de GlueTransform describeReturn.

describeTransform(cls)

Herdado de GlueTransform describeTransform.

describeErrors(cls)

Herdado de GlueTransform describeErrors.

describe(cls)

Herdado de GlueTransform describe.