Versions AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Versions AWS Glue

Vous pouvez configurer le paramètre de version AWS Glue en cas d'ajout ou de mise à jour d'une tâche. La version AWS Glue détermine les versions d'Apache Spark et de Python prises en charge par AWS Glue. La version de Python indique la version qui est prise en charge pour les tâches de type Spark. Le tableau suivant répertorie les versions d'AWS Glue Glue disponibles, les versions Spark et Python correspondantes, ainsi que les autres modifications de fonctionnalité.

Versions AWS Glue

AWS Glue version Versions d'environnement d'exécution prises en charge Version Java prise en charge Changements de fonctionnalité
AWS Glue4,0 Versions de l'environnement Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 est la dernière version de AWS Glue. Plusieurs optimisations et mises à niveau sont intégrées à cette version de AWS Glue, telles que :

  • De nombreuses mises à niveau des fonctionnalités Spark de Spark 3.1 vers Spark 3.3 :

    • Plusieurs améliorations de fonctionnalités lorsqu'il est associé à Pandas. Pour plus d'informations, consultez Nouveautés de Spark 3.3.

    • Optimisations supplémentaires développées sur Amazon EMR.

    • Mise à niveau vers le système de fichiers EMR (EMRFS) 2.53.

  • Migration de Log4j 2 à partir de Log4j 1.x

  • Plusieurs mises à jour de modules Python depuis AWS Glue version 3.0, comme une version de Boto mise à niveau.

  • Mise à niveau de plusieurs connecteurs, notamment le connecteur Amazon Redshift par défaut. veuillez consulter Annexe C : Mises à niveau des connecteurs.

  • Mise à niveau de plusieurs pilotes JDBC. veuillez consulter Annexe B : Mises à niveau du pilote JDBC.

  • Utilisation d'un nouveau connecteur Amazon Redshift et d'un nouveau pilote JDBC.

  • Prise en charge native des infrastructures de lac de données ouverts avec Apache Hudi, Delta Lake et Apache Iceberg.

  • Prise en charge native du plug-in Cloud Shuffle Storage basé sur Amazon S3 (un plug-in Apache Spark) permettant d'utiliser Amazon S3 pour la réorganisation et la capacité de stockage élastique.

Limites

Voici les limites de AWS Glue 4.0 :

  • Les transformations de machine learning et de données d'identification personnelle (PII) de AWS Glue ne sont pas encore disponibles dans AWS Glue 4.0.

Pour plus d'informations sur la migration vers AWS Glue version 4.0, consultez Migration de tâches AWS Glue pour Spark vers AWS Glue version 4.0.

Versions de l'environnement Ray
  • Ray 2.4.0

    Python 3.9

N/A

Créez et exécutez des applications Python distribuées avec AWS Glue for Ray.

Limitations des tâches Ray dans la version 4.0 de AWS Glue

  • AWS Glue les sessions interactives pour Ray sont toujours disponibles en avant-première pour cette version.

  • AWS Glue pour Ray, l'intégration avec Amazon VPC n'est pas disponible actuellement. Les ressources d'un VPC in ne AWS seront pas accessibles sans itinéraire public. Pour plus d'informations sur l'utilisation AWS Glue avec Amazon VPC, consultez. AWS Glue et interface des points de terminaison VPC (AWS PrivateLink)

  • AWS Glue for Ray est disponible dans l'est des États-Unis (Virginie du Nord), dans l'est des États-Unis (Ohio), dans l'ouest des États-Unis (Oregon), en Asie-Pacifique (Tokyo) et en Europe (Irlande).

AWS Glue3,0
  • Spark 3.1.1

  • Python 3.7

Java 8

En plus de la mise à niveau du moteur Spark vers 3.0, des optimisations et des mises à niveau sont intégrées à cette version de AWS Glue, telles que :

  • Crée la bibliothèque ETL AWS Glue par rapport à Spark 3.0, qui est une version majeure de Spark.

  • Les tâches de streaming sont prises en charge sur AWS Glue 3.0.

  • Inclut de nouvelles optimisations d'exécution AWS Glue Spark pour les performances et la fiabilité :

    • Traitement plus rapide des colonnes en mémoire basé sur Apache Arrow pour la lecture des données CSV.

    • Exécution basée sur SIMD pour les lectures vectorisées avec des données CSV.

    • La mise à niveau Spark inclut également des optimisations supplémentaires développées sur Amazon EMR.

    • EMRFS mis à niveau de la version 2.38 à 2.46 offrant de nouvelles fonctionnalités et des corrections de bogues pour l'accès à Amazon S3.

  • Mise à niveau de plusieurs dépendances requises pour la nouvelle version de Spark. veuillez consulter Annexe A : Mises à niveau notables des dépendances.

  • Pilotes JDBC mis à niveau pour nos sources de données prises en charge en mode natif. veuillez consulter Annexe B : Mises à niveau du pilote JDBC.

Limites

Voici les limites de AWS Glue 3.0 :

  • Les transformations de machine learning AWS Glue ne sont pas encore disponibles dans AWS Glue 3.0.

  • Certains connecteurs Spark personnalisés ne fonctionnent pas avec AWS Glue 3.0 s'ils dépendent de Spark 2.4 et ne sont pas compatibles avec Spark 3.1.

Pour plus d'informations sur la migration vers AWS Glue version 3.0, veuillez consulter Migration de tâches AWS Glue pour Spark vers AWS Glue version 3.0.

AWS Glue2.0 (obsolète, fin du support)
  • Spark 2.4.3

  • Python 3.7

N/A

Outre les fonctionnalités fournies dans AWS Glue version 1.0, AWS Glue version 2.0 fournit également :

  • Une infrastructure mise à niveau pour exécuter des tâches ETL Apache Spark dans AWS Glueavec des temps de démarrage réduits.

  • Désormais, la journalisation par défaut est en temps réel, avec des flux séparés pour les pilotes et les exécuteurs, ainsi que des sorties et des erreurs.

  • Prise en charge de la spécification de modules Python supplémentaires ou de versions différentes au niveau de la tâche.

Note

AWS Glue version 2.0 diffère de AWS Glue version 1.0 pour certaines dépendances et versions en raison de modifications architecturales sous-jacentes. Validez vos tâches AWS Glue avant de migrer vers les versions AWS Glue majeures.

Pour plus d'informations sur les fonctionnalités et les limitations de AWS Glue version 2.0, consultez Exécution de tâches ETL Spark avec un temps de démarrage réduit.

AWS Glue 1.0 (obsolète, fin de prise en charge)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/A

Vous pouvez gérer les signets de tâche pour les formats Parquet et ORC dans les tâches ETL AWS Glue (avec AWS Glue version 1.0). Auparavant, vous pouviez uniquement marquer des formats sources Amazon S3 courants tels que JSON, CSV, Apache Avro et XML dans les tâches ETL AWS Glue.

Lors de la définition des options de format pour les entrées et sorties ETL, vous pouvez spécifier d'utiliser le format de lecture/écriture Apache Avro 1.8 pour prendre en charge la lecture et l'écriture de type logique Avro (à l'aide de AWS Glue version 1.0). Auparavant, seul le format de lecture/écriture Avro 1.7 était pris en charge.

Le type de connexion DynamoDB prend en charge une option d'écriture (à l'aide de AWS Glue version 1.0).

Limites

Voici les limites de AWS Glue 1.0 :

  • Les versions 0.9 et 1.0 de AWS Glue ne sont désormais pas disponibles dans les régions Asie-Pacifique (Jakarta) (ap-southeast-3), Moyen-Orient (EAU) (me-central-1) ou dans les autres nouvelles régions.

AWS Glue 0.9 (obsolète, fin de prise en charge)
  • Spark 2.2.1

  • Python 2.7

N/A

Les tâches créées sans qu'une version de AWS Glue soit spécifiée sont des tâches AWS Glue 0.9 par défaut.

Limites

Voici les limites de AWS Glue 0.9 :

  • Les versions 0.9 et 1.0 de AWS Glue ne sont désormais pas disponibles dans les régions Asie-Pacifique (Jakarta) (ap-southeast-3), Moyen-Orient (EAU) (me-central-1) ou dans les autres nouvelles régions.