RemoveDuplicates 수업 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

RemoveDuplicates 수업

선택한 RemoveDuplicates 소스 열에 중복된 값이 있는 경우 변환은 전체 행을 삭제합니다.

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise

출력

출력은 열을 기준으로 중복 항목이 PySpark DataFrame 제거된 상태로 a가 됩니다. source_column_1 결과 DataFrame `df_output`에는 다음 행이 포함됩니다.

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```

참고로, source_column_1 값이 `13.12`와 `null`인 행은 열을 기준으로 중복 항목이 제거되었으므로 출력에 한 번만 나타납니다. DataFrame source_column_1

메서드

__call__ (스파크_컨텍스트, 데이터_프레임, 소스_컬럼)

선택한 소스 열에 중복된 값이 있는 경우 RemoveDuplicates 변환은 전체 행을 삭제합니다.

  • source_column – 기존 열의 이름입니다.

apply(cls, *args, **kwargs)

GlueTransform apply에서 상속됩니다.

name(cls)

GlueTransform 이름에서 상속됩니다.

describeArgs(cls)

GlueTransform describeArgs에서 상속됩니다.

describeReturn(cls)

GlueTransform describeReturn에서 상속됩니다.

describeTransform(cls)

GlueTransform describeTransform에서 상속됩니다.

describeErrors(cls)

GlueTransform describeErrors에서 상속됩니다.

describe(cls)

GlueTransform describe에서 상속됩니다.