Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
FillWithMode classe
La FillWithMode
transformation met en forme une colonne en fonction du format de numéro de téléphone que vous spécifiez. Vous pouvez également définir une logique de rupture d'égalité, dans laquelle certaines valeurs sont identiques. Par exemple, considérez les valeurs suivantes : 1 2 2 3 3 4
Un ModeType de MINIMUM
entraîne le renvoi FillWithMode
de 2 comme valeur de mode. Si ModeType est défini sur 3MAXIMUM
, le mode est 3. Car AVERAGE
le mode est 2,5.
Exemple
from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise
Sortie
La sortie du code donné sera :
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```
La FillWithMode
transformation du module `awsglue.data_quality` est appliquée au `input_df`. DataFrame Il remplace les valeurs « nulles » de la source_column_1
colonne par la valeur maximale (`MODE_TYPE="MAXIMUM"`) parmi les valeurs non nulles de cette colonne.
Dans ce cas, la valeur maximale de la source_column_1
colonne est « 1055,123 ». Par conséquent, les valeurs `null` source_column_1
sont remplacées par `1055,123` dans la sortie `df_output`. DataFrame
Méthodes
__call__ (spark_context, data_frame, source_column, mode_type)
La FillWithMode
transformation met en forme le cas de chaînes dans une colonne.
-
source_column
: nom d’une colonne existante. -
mode_type
— Comment résoudre les valeurs d'égalité dans les données. Cette valeur doit être l'une des valeurs suivantes :MINIMUM
NONE
AVERAGE
, ouMAXIMUM
.
apply(cls, *args, **kwargs)
Hérité de GlueTransform
s'appliquent.
name(cls)
Hérité de GlueTransform
name.
describeArgs(cls)
Hérité de GlueTransform
describeArgs.
describeReturn(cls)
Hérité de GlueTransform
describeReturn.
describeTransform(cls)
Hérité de GlueTransform
describeTransform.
describeErrors(cls)
Hérité de GlueTransform
describeErrors.
describe(cls)
Hérité de GlueTransform
describe.