A transformação FlagDuplicatesInColumn
retorna uma nova coluna com um valor especificado em cada linha que indica se o valor na coluna de origem da linha corresponde a um valor em uma linha anterior da coluna de origem. Quando as correspondências são encontradas, elas são marcadas como duplicatas. A ocorrência inicial não é marcada porque não corresponde a uma linha anterior.
Exemplo
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *
sc = SparkContext()
spark = SparkSession(sc)
datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data")
try:
df_output = column.FlagDuplicatesInColumn.apply(
data_frame=datasource1,
spark_context=sc,
source_column="city",
target_column="flag_col",
true_string="True",
false_string="False"
)
except:
print("Unexpected Error happened ")
raise
Saída
A transformação FlagDuplicatesInColumn
adicionará uma nova coluna “flag_col” ao DataFrame “df_output”. Essa coluna conterá um valor de string indicando se a linha correspondente tem um valor duplicado na coluna “cidade” ou não. Se uma linha tiver um valor cidade” duplicado, o "flag_col" conterá o valor "true_string" "True”. Se uma linha tiver um valor exclusivo de "cidade", o "flag_col" conterá o valor "false_string" "False".
O DataFrame “df_output” resultante conterá todas as colunas do DataFrame “datasource1” original, além da coluna “flag_col” adicional indicando valores duplicados de “cidade”.
Métodos
__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)
A transformação FlagDuplicatesInColumn
retorna uma nova coluna com um valor especificado em cada linha que indica se o valor na coluna de origem da linha corresponde a um valor em uma linha anterior da coluna de origem. Quando as correspondências são encontradas, elas são marcadas como duplicatas. A ocorrência inicial não é marcada porque não corresponde a uma linha anterior.
-
source_column
: nome da coluna de origem. -
target_column
: nome da coluna de destino. -
true_string
: string a ser inserida na coluna de destino quando o valor da coluna de origem duplica um valor anterior nessa coluna. -
false_string
: string a ser inserida na coluna de destino quando o valor da coluna de origem é diferente dos valores anteriores dessa coluna.
apply(cls, *args, **kwargs)
Herdado de GlueTransform
apply.
name(cls)
Herdado de GlueTransform
name.
describeArgs(cls)
Herdado de GlueTransform
describeArgs.
describeReturn(cls)
Herdado de GlueTransform
describeReturn.
describeTransform(cls)
Herdado de GlueTransform
describeTransform.
describeErrors(cls)
Herdado de GlueTransform
describeErrors.
describe(cls)
Herdado de GlueTransform
describe.