FlagDuplicateRows 類 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

FlagDuplicateRows 類

FlagDuplicateRows轉換作業會傳回每一列中指定值的新資料欄,指出該資料列是否與資料集中較早的資料列完全相符。找到相符項目時,會將它們標記為重複項目。不會標記初始出現位置,因為它與先前的列不相符。

範例

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise

輸出

輸出將是一個 PySpark DataFrame 附加列,flag_row該列根據source_column_1列指示行是否重複。產生的「df_輸出」 DataFrame 將包含下列資料列:

``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```

flag_row列指示行是否重複。「真實字串」設定為「真」,而「假字串」則設定為「假」。該 `target_index` 被設置為 1,這意味著該flag_row列將被插入到輸出的第二個位置(索引 1)。 DataFrame

方法

__call__(閃光上下文,數據框架,目標 _ 列,真 _ 字符串 = 默認 _ 真實 _ 字符串,假字符串 = 默認 _ 假字符串,目標 _ 索引 = 無)

FlagDuplicateRows轉換作業會傳回每一列中指定值的新資料欄,指出該資料列是否與資料集中較早的資料列完全相符。找到相符項目時,會將它們標記為重複項目。不會標記初始出現位置,因為它與先前的列不相符。

  • true_string— 如果列與較早的列相符,則要插入的值。

  • false_string— 如果列是唯一的,則要插入的值。

  • target_column— 插入資料集中的新資料行名稱。

apply(cls, *args, **kwargs)

繼承自 GlueTransform apply

name(cls)

繼承自 GlueTransform name

describeArgs(cls)

繼承自 GlueTransform describeArgs

describeReturn(cls)

繼承自 GlueTransform describeReturn

describeTransform(cls)

繼承自 GlueTransform describeTransform

describeErrors(cls)

繼承自 GlueTransform describeErrors

describe(cls)

繼承自 GlueTransform describe