FillWithMode 클래스 - AWS Glue

FillWithMode 클래스

FillWithMode 변환은 지정한 전화번호 형식에 따라 열의 형식을 지정합니다. 일부 값이 동일한 타이 브레이커 로직을 지정할 수도 있습니다. 예를 들어 다음과 같은 입력 값을 고려합니다. 1 2 2 3 3 4

modeType이 MINIMUM이면 FillWithMode에서 모드 값으로 2를 반환합니다. modeType이 MAXIMUM이면 모드는 3입니다. AVERAGE의 경우 모드는 2.5입니다.

from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise

출력

지정된 코드의 출력은 다음과 같습니다.

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```

`awsglue.data_quality` 모듈의 FillWithMode 변환은 `input_df` DataFrame에 적용됩니다. source_column_1 열의 `null` 값을 해당 열의 null이 아닌 값 중 최댓값(`mode_type="MAXIMUM"`)으로 바꿉니다.

이 경우 source_column_1 열의 최댓값은 `1055.123`입니다. 따라서 source_column_1의 `null` 값은 출력 DataFrame `df_output`에서 `1055.123`으로 바뀝니다.

메서드

__call__(spark_context, data_frame, source_column, mode_type)

FillWithMode 변환은 열의 문자열 케이스 형식을 지정합니다.

  • source_column – 기존 열의 이름입니다.

  • mode_type - 데이터의 타이 값을 확인하는 방법. 이 값은 MINIMUM, NONE, AVERAGE 또는 MAXIMUM 중 하나여야 합니다.

apply(cls, *args, **kwargs)

GlueTransform apply에서 상속됩니다.

name(cls)

GlueTransform name에서 상속됩니다.

describeArgs(cls)

GlueTransform describeArgs에서 상속됩니다.

describeReturn(cls)

GlueTransform describeReturn에서 상속됩니다.

describeTransform(cls)

GlueTransform describeTransform에서 상속됩니다.

describeErrors(cls)

GlueTransform describeErrors에서 상속됩니다.

describe(cls)

GlueTransform describe에서 상속됩니다.