FillWithMode 類別 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

FillWithMode 類別

FillWithMode轉換會根據您指定的電話號碼格式來格式化欄。您也可以指定平局斷路器邏輯,其中一些值是相同的。例如,請考慮下列值:1 2 2 3 3 4

MINIMUM導致FillWithMode返回 2 作為模式值的模式類型。如果模式類型為MAXIMUM,則模式為 3。對於AVERAGE,模式為 2.5。

範例

from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise

輸出

給定代碼的輸出將是:

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```

從 'awsglu.data_質量` 模塊的FillWithMode轉換被應用到 '輸入 _df`。 DataFrame它用該列中的非空值的最大值(`Mode_TYPE =「最大值」)替換source_column_1列中的「空」值。

在這種情況下,該列中的最大source_column_1值是「1055.123」。因此,中的「空值」值會在輸出「df_out」中source_column_1被「1055.123」取代。 DataFrame

方法

__call__(閃光上下文,數據框架,源列,模式類型)

FillWithMode換格式化列中字符串的情況。

  • source_column – 現有資料欄的名稱。

  • mode_type— 如何解決數據中的平局值。此值必須是MINIMUMNONEAVERAGE、或之一MAXIMUM

apply(cls, *args, **kwargs)

繼承自 GlueTransform apply

name(cls)

繼承自 GlueTransform name

describeArgs(cls)

繼承自 GlueTransform describeArgs

describeReturn(cls)

繼承自 GlueTransform describeReturn

describeTransform(cls)

繼承自 GlueTransform describeTransform

describeErrors(cls)

繼承自 GlueTransform describeErrors

describe(cls)

繼承自 GlueTransform describe