FlagDuplicateRows 클래스
FlagDuplicateRows
변환은 각 행에 지정된 값이 있는 새 열을 반환합니다. 이 열은 해당 행이 데이터세트의 이전 행과 정확히 일치하는지 여부를 나타냅니다. 일치 항목이 발견되면 중복으로 플래그가 지정됩니다. 초기 발생은 이전 행과 일치하지 않으므로 플래그가 지정되지 않습니다.
예시
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise
출력
출력은 source_column_1
열을 기반으로 행의 중복 여부를 나타내는 추가 열 flag_row
를 포함하는 PySpark DataFrame입니다. 결과 `df_output` DataFrame에는 다음 행이 포함됩니다.
``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```
flag_row
열은 행이 중복인지 여부를 나타냅니다. `true_string`은 'True'로 설정되고 `false_string`은 'False'로 설정됩니다. `target_index`는 1로 설정됩니다. 즉, 출력 DataFrame의 두 번째 위치(인덱스 1)에 flag_row
열이 삽입됩니다.
메서드
__call__(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)
FlagDuplicateRows
변환은 각 행에 지정된 값이 있는 새 열을 반환합니다. 이 열은 해당 행이 데이터세트의 이전 행과 정확히 일치하는지 여부를 나타냅니다. 일치 항목이 발견되면 중복으로 플래그가 지정됩니다. 초기 발생은 이전 행과 일치하지 않으므로 플래그가 지정되지 않습니다.
-
true_string
- 행이 이전 행과 일치하는 경우 삽입할 값. -
false_string
- 행이 고유할 경우 삽입할 값. -
target_column
- 데이터세트에 삽입된 새 열의 이름.
apply(cls, *args, **kwargs)
GlueTransform
apply에서 상속됩니다.
name(cls)
GlueTransform
name에서 상속됩니다.
describeArgs(cls)
GlueTransform
describeArgs에서 상속됩니다.
describeReturn(cls)
GlueTransform
describeReturn에서 상속됩니다.
describeTransform(cls)
GlueTransform
describeTransform에서 상속됩니다.
describeErrors(cls)
GlueTransform
describeErrors에서 상속됩니다.
describe(cls)
GlueTransform
describe에서 상속됩니다.