기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
RemoveDuplicates 수업
선택한 RemoveDuplicates
소스 열에 중복된 값이 있는 경우 변환은 전체 행을 삭제합니다.
예
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise
출력
출력은 열을 기준으로 중복 항목이 PySpark DataFrame 제거된 상태로 a가 됩니다. source_column_1
결과 DataFrame `df_output`에는 다음 행이 포함됩니다.
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```
참고로, source_column_1
값이 `13.12`와 `null`인 행은 열을 기준으로 중복 항목이 제거되었으므로 출력에 한 번만 나타납니다. DataFrame source_column_1
메서드
__call__ (스파크_컨텍스트, 데이터_프레임, 소스_컬럼)
선택한 소스 열에 중복된 값이 있는 경우 RemoveDuplicates
변환은 전체 행을 삭제합니다.
-
source_column
– 기존 열의 이름입니다.
apply(cls, *args, **kwargs)
GlueTransform
apply에서 상속됩니다.
name(cls)
GlueTransform
이름에서 상속됩니다.
describeArgs(cls)
GlueTransform
describeArgs에서 상속됩니다.
describeReturn(cls)
GlueTransform
describeReturn에서 상속됩니다.
describeTransform(cls)
GlueTransform
describeTransform에서 상속됩니다.
describeErrors(cls)
GlueTransform
describeErrors에서 상속됩니다.
describe(cls)
GlueTransform
describe에서 상속됩니다.