範例輸出 — methods —__call__apply name describeArgs describeReturn describeTransform describeErrors describe

FlagDuplicateRows 類

FlagDuplicateRows轉換作業會傳回每一列中指定值的新資料欄，指出該資料列是否與資料集中較早的資料列完全相符。找到相符項目時，會將它們標記為重複項目。不會標記初始出現位置，因為它與先前的列不相符。

範例


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.FlagDuplicateRows.apply(
        data_frame=input_df,
        spark_context=sc,
        target_column="flag_row",
        true_string="True",
        false_string="False",
        target_index=1
    )
except:
    print("Unexpected Error happened ")
    raise

輸出

輸出將是一個 PySpark DataFrame 附加列，flag_row該列根據source_column_1列指示行是否重複。產生的「df_輸出」 DataFrame 將包含下列資料列：


```
+---------------+---------------+--------+
|source_column_1|source_column_2|flag_row|
+---------------+---------------+--------+
| 105.111| 13.12| False|
| 13.12| 13.12| True|
| null| 13.12| True|
| 13.12| 13.12| True|
| null| 13.12| True|
+---------------+---------------+--------+
```

該flag_row列指示行是否重複。「真實字串」設定為「真」，而「假字串」則設定為「假」。該 `target_index` 被設置為 1，這意味著該flag_row列將被插入到輸出的第二個位置（索引 1）。 DataFrame

call（閃光上下文，數據框架，目標 _ 列，真 _ 字符串 = 默認 _ 真實 _ 字符串，假字符串 = 默認 _ 假字符串，目標 _ 索引 = 無）

true_string— 如果列與較早的列相符，則要插入的值。
false_string— 如果列是唯一的，則要插入的值。
target_column— 插入資料集中的新資料行名稱。

apply(cls, *args, **kwargs)

繼承自 GlueTransform apply。

name(cls)

繼承自 GlueTransform name。

describeArgs(cls)

繼承自 GlueTransform describeArgs。

describeReturn(cls)

繼承自 GlueTransform describeReturn。

describeTransform(cls)

繼承自 GlueTransform describeTransform。

describeErrors(cls)

繼承自 GlueTransform describeErrors。

describe(cls)

繼承自 GlueTransform describe。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

FillWithMode

RemoveDuplicates