Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Die FlagDuplicatesInColumn
Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück, der angibt, ob der Wert in der Quellspalte der Zeile mit einem Wert in einer früheren Zeile der Quellspalte übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden sie als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.
Beispiel
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *
sc = SparkContext()
spark = SparkSession(sc)
datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data")
try:
df_output = column.FlagDuplicatesInColumn.apply(
data_frame=datasource1,
spark_context=sc,
source_column="city",
target_column="flag_col",
true_string="True",
false_string="False"
)
except:
print("Unexpected Error happened ")
raise
Output
Die FlagDuplicatesInColumn
Transformation fügt eine neue Spalte `flag_col` zur `df_output` hinzu. DataFrame Diese Spalte wird einen Zeichenkettenwert enthalten, der angibt, ob die entsprechende Zeile einen doppelten Wert in der Spalte `city` hat oder nicht. Wenn eine Zeile einen doppelten `city`-Wert hat, enthält `flag_col` den `true_string`-Wert „True“. Wenn eine Zeile einen eindeutigen `city`-Wert hat, enthält `flag_col` den `false_string`-Wert „False“.
Das resultierende `df_output` DataFrame wird alle Spalten aus der ursprünglichen `datasource1` enthalten, plus die zusätzliche `flag_col`-Spalte, die doppelte `city`-Werte anzeigt. DataFrame
Methoden
__call__ (spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, FALSE_STRING=default_false_string)
Die FlagDuplicatesInColumn
Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück, der angibt, ob der Wert in der Quellspalte der Zeile mit einem Wert in einer früheren Zeile der Quellspalte übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden sie als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.
-
source_column
— Name der Quellspalte. -
target_column
— Name der Zielspalte. -
true_string
— Zeichenfolge, die in die Zielspalte eingefügt werden soll, wenn ein Quellspaltenwert einen früheren Wert in dieser Spalte dupliziert. -
false_string
— Zeichenfolge, die in die Zielspalte eingefügt werden soll, wenn sich ein Quellspaltenwert von früheren Werten in dieser Spalte unterscheidet.
apply(cls, *args, **kwargs)
Geerbt von GlueTransform
apply.
name(cls)
Geerbt von GlueTransform
Name.
describeArgs(cls)
Geerbt von GlueTransform
describeArgs.
describeReturn(cls)
Geerbt von GlueTransform
describeReturn.
describeTransform(cls)
Geerbt von GlueTransform
describeTransform.
describeErrors(cls)
Geerbt von GlueTransform
describeErrors.
describe(cls)
Geerbt von GlueTransform
Beschreiben.