Exemplo Saída — métodos —__call__apply nome describeArgs describeReturn describeTransform describeErrors describe

Classe RemoveDuplicates

A transformação RemoveDuplicates exclui uma linha inteira se um valor duplicado é encontrado em uma coluna de origem selecionada.

Exemplo


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.RemoveDuplicates.apply(
        data_frame=input_df,
        spark_context=sc,
        source_column="source_column_1"
    )
except:
    print("Unexpected Error happened ")
    raise

Saída

A saída será um quadro de dados PySpark com duplicatas removidas com base na coluna source_column_1. O DataFrame “df_output” resultante conterá as seguintes linhas:


```
+---------------+---------------+
|source_column_1|source_column_2|
+---------------+---------------+
| 105.111| 13.12|
| 13.12| 13.12|
| null| 13.12|
+---------------+---------------+
```

Observe que as linhas com valores source_column_1 de “13.12” e “null” aparecem apenas uma vez no quadro de dados de saída, pois as duplicatas foram removidas com base na coluna source_column_1.

call(spark_context, data_frame, source_column)

A transformação RemoveDuplicates exclui uma linha inteira se um valor duplicado é encontrado em uma coluna de origem selecionada.

source_column: o nome de uma coluna existente.

aplicar(cls, *args, **kwargs)

Herdado de GlueTransform apply.

name(cls)

Herdado de GlueTransform nome.

describeArgs(cls)

Herdado de GlueTransform describeArgs.

describeReturn(cls)

Herdado de GlueTransform describeReturn.

describeTransform(cls)

Herdado de GlueTransform describeTransform.

describeErrors(cls)

Herdado de GlueTransform describeErrors.

describe(cls)

Herdado de GlueTransform describe.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

FlagDuplicateRows

MonthName