FlagDuplicatesInColumn clase - AWS Adherencia

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

FlagDuplicatesInColumn clase

La FlagDuplicatesInColumn transformación devuelve una nueva columna con un valor específico en cada fila que indica si el valor de la columna de origen de la fila coincide con un valor de una fila anterior de la columna de origen. Cuando se encuentran coincidencias, se marcan como duplicadas. La aparición inicial no está marcada porque no coincide con una fila anterior.

Ejemplo

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

Salida

La FlagDuplicatesInColumn transformación añadirá una nueva columna, `flag_col`, a `df_output`. DataFrame Esta columna contendrá un valor de cadena que indicará si la fila correspondiente tiene un valor duplicado en la columna `ciudad` o no. Si una fila tiene un valor de `ciudad` duplicado, `flag_col` contendrá el valor `true_string` «True». Si una fila tiene un valor de `ciudad` único, `flag_col` contendrá el valor `false_string` «False».

La opción `df_output` resultante DataFrame contendrá todas las columnas de la `datasource1` original, además de la columna adicional `flag_col` que indica valores de `ciudad` duplicados. DataFrame

Métodos

__call__ (spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, FALSE_STRING=DEFAULT_FALSE_STRING)

La FlagDuplicatesInColumn transformación devuelve una nueva columna con un valor específico en cada fila que indica si el valor de la columna de origen de la fila coincide con un valor de una fila anterior de la columna de origen. Cuando se encuentran coincidencias, se marcan como duplicadas. La aparición inicial no está marcada porque no coincide con una fila anterior.

  • source_column— Nombre de la columna de origen.

  • target_column— Nombre de la columna de destino.

  • true_string— Cadena que se insertará en la columna de destino cuando el valor de una columna de origen duplique un valor anterior de esa columna.

  • false_string— Cadena que se insertará en la columna de destino cuando el valor de la columna de origen sea distinto de los valores anteriores de esa columna.

apply(cls, *args, **kwargs)

Heredado de GlueTransform apply.

name(cls)

Heredado de GlueTransform name.

describeArgs(cls)

Heredado de GlueTransform describeArgs.

describeReturn(cls)

Heredado de GlueTransform describeReturn.

describeTransform(cls)

Heredado de GlueTransform describeTransform.

describeErrors(cls)

Heredado de GlueTransform describeErrors.

describe(cls)

Heredado de GlueTransform describe.