Types d'extension PySpark - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Types d'extension PySpark

Types utilisés par les extensions PySpark AWS Glue.

Type de données

Classe de base pour les autres types AWS Glue.

__init__(properties={})
  • properties – Propriétés des types de données (facultatif).

typeName(cls)

Renvoie le type de la classe de type AWS Glue (c'est-à-dire, le nom de classe avec « Type » supprimé de la fin).

  • cls – Instance de classe AWS Glue dérivée de DataType.

jsonValue( )

Renvoie un objet JSON qui contient le type de données et les propriétés de la classe :

{ "dataType": typeName, "properties": properties }

Dérivées AtomicType et Simple

Hérite de la classe Type de données et l'étend, et sert de classe de base pour tous les types de données atomiques AWS Glue .

fromJsonValue(cls, json_value)

Initialise une instance de classe avec les valeurs d'un objet JSON.

  • cls – Instance de classe de type AWS Glue.

  • json_value – Objet JSON à partir duquel charger les paires clé-valeur.

Les types suivants sont des dérivés simples de la classe AtomicType :

  • BinaryType – Données binaires.

  • BooleanType – Valeurs booléennes.

  • ByteType – Valeur byte.

  • DateType – Valeur datetime.

  • DoubleType – Valeur double à virgule flottante.

  • IntegerType – Une valeur d'entier.

  • LongType - Entier long.

  • NullType – Valeur null.

  • ShortType – Entier court.

  • StringType – Chaîne texte.

  • TimestampType – Valeur timestamp (généralement en secondes à partir du 01/01/1970).

  • UnknownType – Valeur de type non identifié.

DecimalType(AtomicType)

Hérite depuis la classe AtomicType et l'étend pour représenter un nombre décimal (nombre exprimé en décimales, par opposition aux nombres binaires de base 2).

__init__(precision=10, scale=2, properties={})
  • precision – Nombre de chiffres dans le nombre décimal (facultatif ; la valeur par défaut est 10).

  • scale – Nombre de chiffres à droite du point décimal (facultatif ; la valeur par défaut est 2).

  • properties – Propriétés du nombre décimal (facultatif).

EnumType(AtomicType)

Hérite de la classe AtomicType et l'étend pour représenter une énumération des options valides.

__init__(options)
  • options – Liste des options énumérées.

 Types de collections

ArrayType(DataType)

__init__(elementType=UnknownType(), properties={})
  • elementType – Type d'éléments du tableau (facultatif ; la valeur par défaut est UnknownType).

  • properties – Propriétés du tableau (facultatif).

ChoiceType(DataType)

__init__(choices=[], properties={})
  • choices – Liste des choix possibles (facultatif).

  • properties – Propriétés de ces options (facultatif).

add(new_choice)

Ajoute un nouveau choix à la liste des choix possibles.

  • new_choice – Choix à ajouter à la liste des choix possibles.

merge(new_choices)

Fusionne une liste de nouveaux choix avec la liste de choix existantes.

  • new_choices – Liste des nouveaux choix à fusionner avec les choix existants.

MapType(DataType)

__init__(valueType=UnknownType, properties={})
  • valueType – Type de valeurs de la map (facultatif ; la valeur par défaut est UnknownType).

  • properties – Propriétés de la map (facultatif).

Field(Object)

Crée un objet champ hors d'un objet qui dérive de Type de données.

__init__(name, dataType, properties={})
  • name – Nom à attribuer au champ.

  • dataType – Objet à partir duquel créer un champ.

  • properties – Propriétés du champ (facultatif).

StructType(DataType)

Définit une structure de données (struct).

__init__(fields=[], properties={})
  • fields – Liste des champs (de type Field) à inclure dans la structure (facultatif).

  • properties – Propriétés de la structure (facultatif).

add(field)
  • field – Objet de type Field à ajouter à la structure.

hasField(field)

Renvoie True si la structure dispose d'un champ du même nom, ou False si ce n'est pas le cas.

  • field – Nom de champ ou objet de type Field dont le nom est utilisé.

getField(field)
  • field – nom de champ ou objet de type Field dont le nom est utilisé. Si la structure a un champ du même nom, il est retourné.

EntityType(DataType)

__init__(entity, base_type, properties)

Cette classe n'a pas encore été implémentée.

 Autres types

DataSource(object)

__init__(j_source, sql_ctx, name)
  • j_source – Source de données.

  • sql_ctx – Contexte SQL.

  • name – Nom de la source de données.

setFormat(format, **options)

getFrame()

Renvoie un DynamicFrame pour la source de données.

DataSink(object)

__init__(j_sink, sql_ctx)
  • j_sink – Récepteur à créer.

  • sql_ctx – Contexte SQL pour le récepteur de données.

setFormat(format, **options)

setAccumulableSize(size)
  • size – Taille cumulable à définir, en octets.

writeFrame(dynamic_frame, info="")
  • dynamic_frame – Objet DynamicFrame à écrire.

  • info – Informations sur l'objet DynamicFrame (facultatif).

write(dynamic_frame_or_dfc, info="")

Écrit un DynamicFrame ou un DynamicFrameCollection.

  • dynamic_frame_or_dfc – Objet DynamicFrame ou DynamicFrameCollection à écrire.

  • info – Informations sur le DynamicFrame ou DynamicFrames à écrire (facultatif).