例出力 — 方法 —__call__適用名前 describeArgs describeReturn describeTransform describeErrors 説明

RemoveDuplicates class

選択したソース列で重複する値が検出された場合、RemoveDuplicates 変換によって行全体が削除されます。

例


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.RemoveDuplicates.apply(
        data_frame=input_df,
        spark_context=sc,
        source_column="source_column_1"
    )
except:
    print("Unexpected Error happened ")
    raise

出力

出力は、source_column_1 列に基づいて重複が削除された PySpark DataFrame になります。結果の「df_output」 DataFrame には、次の行が含まれます。


```
+---------------+---------------+
|source_column_1|source_column_2|
+---------------+---------------+
| 105.111| 13.12|
| 13.12| 13.12|
| null| 13.12|
+---------------+---------------+
```

「13.12」と「null」の source_column_1 値を持つ行は、source_column_1 列に基づいて重複が削除されているため、出力 DataFrame に 1 回だけ表示されることに注意してください。

call(spark_context, data_frame, source_column)

選択したソース列で重複する値が検出された場合、RemoveDuplicates 変換によって行全体が削除されます。

source_column - 既存の列の名前。

apply(cls, *args, **kwargs)

継承元は GlueTransform apply。

name(cls)

継承元は GlueTransform name。

describeArgs(cls)

継承元は GlueTransform describeArgs。

describeReturn(cls)

継承元は GlueTransform describeReturn。

describeTransform(cls)

継承元は GlueTransform describeTransform。

describeErrors(cls)

継承元は GlueTransform describeErrors。

describe(cls)

継承元は GlueTransform 説明。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

FlagDuplicateRows

MonthName