FillWithMode 클래스
FillWithMode
변환은 지정한 전화번호 형식에 따라 열의 형식을 지정합니다. 일부 값이 동일한 타이 브레이커 로직을 지정할 수도 있습니다. 예를 들어 다음과 같은 입력 값을 고려합니다. 1 2 2 3 3 4
modeType이 MINIMUM
이면 FillWithMode
에서 모드 값으로 2를 반환합니다. modeType이 MAXIMUM
이면 모드는 3입니다. AVERAGE
의 경우 모드는 2.5입니다.
예
from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise
출력
지정된 코드의 출력은 다음과 같습니다.
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```
`awsglue.data_quality` 모듈의 FillWithMode
변환은 `input_df` DataFrame에 적용됩니다. source_column_1
열의 `null` 값을 해당 열의 null이 아닌 값 중 최댓값(`mode_type="MAXIMUM"`)으로 바꿉니다.
이 경우 source_column_1
열의 최댓값은 `1055.123`입니다. 따라서 source_column_1
의 `null` 값은 출력 DataFrame `df_output`에서 `1055.123`으로 바뀝니다.
메서드
__call__(spark_context, data_frame, source_column, mode_type)
FillWithMode
변환은 열의 문자열 케이스 형식을 지정합니다.
-
source_column
– 기존 열의 이름입니다. -
mode_type
- 데이터의 타이 값을 확인하는 방법. 이 값은MINIMUM
,NONE
,AVERAGE
또는MAXIMUM
중 하나여야 합니다.
apply(cls, *args, **kwargs)
GlueTransform
apply에서 상속됩니다.
name(cls)
GlueTransform
name에서 상속됩니다.
describeArgs(cls)
GlueTransform
describeArgs에서 상속됩니다.
describeReturn(cls)
GlueTransform
describeReturn에서 상속됩니다.
describeTransform(cls)
GlueTransform
describeTransform에서 상속됩니다.
describeErrors(cls)
GlueTransform
describeErrors에서 상속됩니다.
describe(cls)
GlueTransform
describe에서 상속됩니다.