FillWithMode 수업 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

FillWithMode 수업

FillWithMode변환은 지정한 전화번호 형식에 따라 열의 형식을 지정합니다. 일부 값이 동일한 타이 브레이커 로직을 지정할 수도 있습니다. 예를 들어, 다음 값을 고려해 보십시오. 1 2 2 3 3 4

MINIMUMmodeType은 모드 값으로 2를 FillWithMode 반환하도록 합니다. 모드 타입이 MAXIMUM 인 경우 모드는 3입니다. 의 AVERAGE 경우 모드는 2.5입니다.

from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise

출력

주어진 코드의 출력은 다음과 같습니다.

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```

'awsglue.data_quality' 모듈에서의 FillWithMode 변환은 'input_df'에 적용됩니다. DataFrame 열의 'null' 값을 해당 열에 있는 null이 아닌 값의 최대값 (`mode_type="Maximum"`) 으로 대체합니다. source_column_1

이 경우 열의 source_column_1 최대값은 `1055.123`입니다. 따라서 출력 `df_output`에서 의 `null` 값은 `1055.123`으로 대체됩니다. source_column_1 DataFrame

메서드

__call__ (스파크_컨텍스트, 데이터_프레임, 소스_컬럼, 모드_타입)

변환은 열에 있는 문자열의 FillWithMode 대/소문자 형식을 지정합니다.

  • source_column – 기존 열의 이름입니다.

  • mode_type— 데이터의 동점 값을 해결하는 방법. 이 값은MINIMUM, NONEAVERAGE, 또는 중 하나여야 MAXIMUM 합니다.

apply(cls, *args, **kwargs)

GlueTransform apply에서 상속됩니다.

name(cls)

GlueTransform 이름에서 상속됩니다.

describeArgs(cls)

GlueTransform describeArgs에서 상속됩니다.

describeReturn(cls)

GlueTransform describeReturn에서 상속됩니다.

describeTransform(cls)

GlueTransform describeTransform에서 상속됩니다.

describeErrors(cls)

GlueTransform describeErrors에서 상속됩니다.

describe(cls)

GlueTransform describe에서 상속됩니다.