FillWithMode Klasse - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

FillWithMode Klasse

Die FillWithMode Transformation formatiert eine Spalte entsprechend dem von Ihnen angegebenen Telefonnummernformat. Sie können auch eine Tie-Breaker-Logik angeben, bei der einige Werte identisch sind. Betrachten Sie beispielsweise die folgenden Werte: 1 2 2 3 3 4

Ein ModeType von MINIMUM bewirktFillWithMode, dass 2 als Moduswert zurückgegeben wird. Wenn modeType den Wert 3 hatMAXIMUM, ist der Modus 3. Für AVERAGE ist der Modus 2,5.

Beispiel

from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise

Output

Die Ausgabe des angegebenen Codes wird sein:

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```

Die FillWithMode Transformation aus dem Modul `awsglue.data_quality` wird auf das `input_df` angewendet. DataFrame Es ersetzt die `Null`-Werte in der Spalte durch den Maximalwert (`mode_type="MAXIMUM"`) aus den Nicht-Null-Werten in dieser source_column_1 Spalte.

In diesem Fall ist der Maximalwert in der Spalte `1055,123`. source_column_1 Daher werden die `Null`-Werte in in der Ausgabe `df_output` durch source_column_1 `1055.123` ersetzt. DataFrame

Methoden

__call__ (spark_context, data_frame, source_column, mode_type)

Die Transformation formatiert die Groß- und Kleinschreibung von Zeichenketten in einer Spalte. FillWithMode

  • source_column – Der Name einer vorhandenen Spalte.

  • mode_type— Wie löst man Gleichheitswerte in den Daten auf? Dieser Wert muss einer vonMINIMUM, NONEAVERAGE, oder seinMAXIMUM.

apply(cls, *args, **kwargs)

Geerbt von GlueTransform apply.

name(cls)

Geerbt von GlueTransform Name.

describeArgs(cls)

Geerbt von GlueTransform describeArgs.

describeReturn(cls)

Geerbt von GlueTransform describeReturn.

describeTransform(cls)

Geerbt von GlueTransform describeTransform.

describeErrors(cls)

Geerbt von GlueTransform describeErrors.

describe(cls)

Geerbt von GlueTransform Beschreiben.