예시 출력 - 메서드 -__call__apply name describeArgs describeReturn describeTransform describeErrors describe

RemoveDuplicates 클래스

RemoveDuplicates 변환은 선택한 소스 열에서 중복 값이 발생하는 경우 전체 행을 삭제합니다.

예시


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.RemoveDuplicates.apply(
        data_frame=input_df,
        spark_context=sc,
        source_column="source_column_1"
    )
except:
    print("Unexpected Error happened ")
    raise

출력

출력은 source_column_1 열에 따라 중복이 제거된 PySpark DataFrame입니다. 결과 `df_output` DataFrame에는 다음 행이 포함됩니다.


```
+---------------+---------------+
|source_column_1|source_column_2|
+---------------+---------------+
| 105.111| 13.12|
| 13.12| 13.12|
| null| 13.12|
+---------------+---------------+
```

source_column_1 열에 따라 중복이 제거되므로 source_column_1 값이 `13.12` 및 `null`인 행은 출력 DataFrame에 한 번만 표시됩니다.

call(spark_context, data_frame, source_column)

RemoveDuplicates 변환은 선택한 소스 열에서 중복 값이 발생하는 경우 전체 행을 삭제합니다.

source_column – 기존 열의 이름입니다.

apply(cls, *args, **kwargs)

GlueTransform apply에서 상속됩니다.

name(cls)

GlueTransform name에서 상속됩니다.

describeArgs(cls)

GlueTransform describeArgs에서 상속됩니다.

describeReturn(cls)

GlueTransform describeReturn에서 상속됩니다.

describeTransform(cls)

GlueTransform describeTransform에서 상속됩니다.

describeErrors(cls)

GlueTransform describeErrors에서 상속됩니다.

describe(cls)

GlueTransform describe에서 상속됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

FlagDuplicateRows

MonthName