FlagDuplicatesInColumn 類 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

FlagDuplicatesInColumn 類

FlagDuplicatesInColumn轉換作業會傳回每一列中含有指定值的新資料欄,指出資料列的來源資料欄中的值是否與來源資料欄較早列中的值相符。找到相符項目時,會將它們標記為重複項目。不會標記初始出現位置,因為它與先前的列不相符。

範例

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

輸出

FlagDuplicatesInColumn轉換將會在 `df_col' 中添加一個新的列 'df 輸出'。 DataFrame該列將包含一個字符串值,指示相應的行是否在 `city` 列或沒有重複的值。如果一行具有重複的「城市」值,則 `flag_col` 將包含 '真實' 字符串 '值「真」。如果一行具有唯一的「城市」值,則「FLAG_COL」將包含「假」字符串值。

由此產生的 `df_output` DataFrame 將包含來自原始「資料庫 1」的所有欄位,再加上額外的 'flag_col' 欄,表示重複的 ` DataFrame城市' 值。

方法

__call__(閃光上下文,數據框架,源列,目標列,真實字符串 = 默認 _ 真實 _ 字符串,假字符串 = 默認 _ 假字符串)

FlagDuplicatesInColumn轉換作業會傳回每一列中含有指定值的新資料欄,指出資料列的來源資料欄中的值是否與來源資料欄較早列中的值相符。找到相符項目時,會將它們標記為重複項目。不會標記初始出現位置,因為它與先前的列不相符。

  • source_column— 來源資料欄的名稱。

  • target_column— 目標資料行的名稱。

  • true_string— 當來源資料行值複製該欄中較早的值時,要在目標資料行中插入的字串。

  • false_string— 當來源資料行值與該資料行中較早的值不同時,要在目標資料行中插入的字串。

apply(cls, *args, **kwargs)

繼承自 GlueTransform apply

name(cls)

繼承自 GlueTransform name

describeArgs(cls)

繼承自 GlueTransform describeArgs

describeReturn(cls)

繼承自 GlueTransform describeReturn

describeTransform(cls)

繼承自 GlueTransform describeTransform

describeErrors(cls)

繼承自 GlueTransform describeErrors

describe(cls)

繼承自 GlueTransform describe