Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
FlagDuplicatesInColumn clase
La FlagDuplicatesInColumn
transformación devuelve una nueva columna con un valor específico en cada fila que indica si el valor de la columna de origen de la fila coincide con un valor de una fila anterior de la columna de origen. Cuando se encuentran coincidencias, se marcan como duplicadas. La aparición inicial no está marcada porque no coincide con una fila anterior.
Ejemplo
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise
Salida
La FlagDuplicatesInColumn
transformación añadirá una nueva columna, `flag_col`, a `df_output`. DataFrame Esta columna contendrá un valor de cadena que indicará si la fila correspondiente tiene un valor duplicado en la columna `ciudad` o no. Si una fila tiene un valor de `ciudad` duplicado, `flag_col` contendrá el valor `true_string` «True». Si una fila tiene un valor de `ciudad` único, `flag_col` contendrá el valor `false_string` «False».
La opción `df_output` resultante DataFrame contendrá todas las columnas de la `datasource1` original, además de la columna adicional `flag_col` que indica valores de `ciudad` duplicados. DataFrame
Métodos
__call__ (spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, FALSE_STRING=DEFAULT_FALSE_STRING)
La FlagDuplicatesInColumn
transformación devuelve una nueva columna con un valor específico en cada fila que indica si el valor de la columna de origen de la fila coincide con un valor de una fila anterior de la columna de origen. Cuando se encuentran coincidencias, se marcan como duplicadas. La aparición inicial no está marcada porque no coincide con una fila anterior.
-
source_column
— Nombre de la columna de origen. -
target_column
— Nombre de la columna de destino. -
true_string
— Cadena que se insertará en la columna de destino cuando el valor de una columna de origen duplique un valor anterior de esa columna. -
false_string
— Cadena que se insertará en la columna de destino cuando el valor de la columna de origen sea distinto de los valores anteriores de esa columna.
apply(cls, *args, **kwargs)
Heredado de GlueTransform
apply.
name(cls)
Heredado de GlueTransform
name.
describeArgs(cls)
Heredado de GlueTransform
describeArgs.
describeReturn(cls)
Heredado de GlueTransform
describeReturn.
describeTransform(cls)
Heredado de GlueTransform
describeTransform.
describeErrors(cls)
Heredado de GlueTransform
describeErrors.
describe(cls)
Heredado de GlueTransform
describe.