Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

FlagDuplicatesInColumn Klasse

Fokusmodus
FlagDuplicatesInColumn Klasse - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die FlagDuplicatesInColumn Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück, der angibt, ob der Wert in der Quellspalte der Zeile mit einem Wert in einer früheren Zeile der Quellspalte übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden sie als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.

Beispiel

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

Output

Die FlagDuplicatesInColumn Transformation fügt eine neue Spalte `flag_col` zur `df_output` hinzu. DataFrame Diese Spalte wird einen Zeichenkettenwert enthalten, der angibt, ob die entsprechende Zeile einen doppelten Wert in der Spalte `city` hat oder nicht. Wenn eine Zeile einen doppelten `city`-Wert hat, enthält `flag_col` den `true_string`-Wert „True“. Wenn eine Zeile einen eindeutigen `city`-Wert hat, enthält `flag_col` den `false_string`-Wert „False“.

Das resultierende `df_output` DataFrame wird alle Spalten aus der ursprünglichen `datasource1` enthalten, plus die zusätzliche `flag_col`-Spalte, die doppelte `city`-Werte anzeigt. DataFrame

Methoden

__call__ (spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, FALSE_STRING=default_false_string)

Die FlagDuplicatesInColumn Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück, der angibt, ob der Wert in der Quellspalte der Zeile mit einem Wert in einer früheren Zeile der Quellspalte übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden sie als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.

  • source_column— Name der Quellspalte.

  • target_column— Name der Zielspalte.

  • true_string— Zeichenfolge, die in die Zielspalte eingefügt werden soll, wenn ein Quellspaltenwert einen früheren Wert in dieser Spalte dupliziert.

  • false_string— Zeichenfolge, die in die Zielspalte eingefügt werden soll, wenn sich ein Quellspaltenwert von früheren Werten in dieser Spalte unterscheidet.

apply(cls, *args, **kwargs)

Geerbt von GlueTransform apply.

name(cls)

Geerbt von GlueTransform Name.

describeArgs(cls)

Geerbt von GlueTransform describeArgs.

describeReturn(cls)

Geerbt von GlueTransform describeReturn.

describeTransform(cls)

Geerbt von GlueTransform describeTransform.

describeErrors(cls)

Geerbt von GlueTransform describeErrors.

describe(cls)

Geerbt von GlueTransform Beschreiben.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.