AWS Glue versions - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue versions

Vous pouvez configurer le paramètre de AWS Glue version lorsque vous ajoutez ou mettez à jour une tâche. La AWS Glue version détermine les versions d'Apache Spark et de Python prises AWS Glue en charge. La version de Python indique la version qui est prise en charge pour les tâches de type Spark. Le tableau suivant répertorie les versions d' AWS Glue Glue disponibles, les versions Spark et Python correspondantes, ainsi que les autres modifications de fonctionnalité.

AWS Glue versions

AWS Glue version Versions d'environnement d'exécution prises en charge Version Java prise en charge Changements de fonctionnalité
AWS Glue 5,0
  • Spark 3.5.2

  • Python 3.11

  • Scala 2.12.18

Java 17

Outre les mises à jour du framework, cette AWS Glue version intègre des optimisations et des mises à niveau, telles que :

  • Assistance avec Amazon SageMaker Unified Studio

  • Assistance Amazon SageMaker Lakehouse

  • Open Table Formats (OTF) mis à jour vers Hudi 0.15.0, Iceberg 1.6.1 et Delta Lake 3.2.1

  • Contrôle d'accès à grain fin natif de Spark à l'aide de Lake Formation.

  • Soutien aux subventions d'accès Amazon S3

  • requirements.txtprise en charge de l'installation de bibliothèques Python supplémentaires

  • Support du lignage des données sur Amazon DataZone

Limites

Les limites de la AWS Glue version 5.0 sont les suivantes :

  • Le contrôle d'accès au niveau de la table GlueContext basé sur Glue Dynamic Frame/ avec AWS Lake Formation des autorisations prises en charge dans Glue 4.0 ou antérieur n'est pas pris en charge dans Glue 5.0. Utilisez le nouveau contrôle d'accès fin natif de Spark (FGAC) dans Glue 5.0.

Pour plus d'informations sur la migration vers la AWS Glue version 5.0, consultezMigration AWS Glue des tâches Spark vers la AWS Glue version 5.0.

AWS Glue 4,0 Versions de l'environnement Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue La version 4.0 intègre un certain nombre d'optimisations et de mises à niveau, telles que : AWS Glue

  • De nombreuses mises à niveau des fonctionnalités Spark de Spark 3.1 vers Spark 3.3 :

    • Plusieurs améliorations de fonctionnalités lorsqu'il est associé à Pandas. Pour plus d'informations, consultez Nouveautés de Spark 3.3.

    • Optimisations supplémentaires développées sur Amazon EMR.

    • Mise à niveau vers le système de fichiers EMR (EMRFS) 2.53.

  • Migration de Log4j 2 à partir de Log4j 1.x

  • Plusieurs mises à jour de modules Python depuis AWS Glue version 3.0, comme une version de Boto mise à niveau.

  • Mise à niveau de plusieurs connecteurs, notamment le connecteur Amazon Redshift par défaut. Consultez Annexe C : Mises à niveau des connecteurs.

  • Mise à niveau de plusieurs pilotes JDBC. Consultez Annexe B : Mises à niveau du pilote JDBC.

  • Utilisation d'un nouveau connecteur Amazon Redshift et d'un nouveau pilote JDBC.

  • Prise en charge native des infrastructures de lac de données ouverts avec Apache Hudi, Delta Lake et Apache Iceberg.

  • Prise en charge native du plug-in Cloud Shuffle Storage basé sur Amazon S3 (un plug-in Apache Spark) permettant d'utiliser Amazon S3 pour la réorganisation et la capacité de stockage élastique.

Limites

Voici les limites de AWS Glue  4.0 :

  • AWS Glue l'apprentissage automatique et les transformations des informations personnelles identifiables (PII) ne sont pas encore disponibles dans la AWS Glue version 4.0.

Pour plus d'informations sur la migration vers AWS Glue version 4.0, consultez Migration AWS Glue des tâches Spark vers la AWS Glue version 4.0.

Versions de l'environnement Ray
  • Ray 2.4.0

    Python 3.9

N/A

Créez et exécutez des applications Python distribuées avec AWS Glue for Ray.

Limitations des tâches Ray dans la version 4.0 de AWS Glue

  • AWS Glue les sessions interactives pour Ray sont toujours disponibles en avant-première pour cette version.

  • AWS Glue pour Ray, l'intégration avec Amazon VPC n'est pas disponible actuellement. Les ressources d'un VPC in ne AWS seront pas accessibles sans itinéraire public. Pour plus d'informations sur l'utilisation AWS Glue avec Amazon VPC, consultez. Configuration des points de terminaison VPC de l'interface () pour AWS PrivateLinkAWS Glue (AWS PrivateLink)

  • AWS Glue for Ray est disponible dans l'est des États-Unis (Virginie du Nord), dans l'est des États-Unis (Ohio), dans l'ouest des États-Unis (Oregon), en Asie-Pacifique (Tokyo) et en Europe (Irlande).

AWS Glue 3,0
  • Spark 3.1.1

  • Python 3.7

Java 8

En plus de la mise à niveau du moteur Spark vers 3.0, des optimisations et des mises à niveau sont intégrées à cette version de AWS Glue , telles que :

  • Construit la bibliothèque AWS Glue ETL par rapport à Spark 3.0, qui est une version majeure de Spark.

  • Les tâches de streaming sont prises en charge sur AWS Glue  3.0.

  • Inclut de nouvelles optimisations d'exécution de AWS Glue Spark en termes de performances et de fiabilité :

    • Traitement plus rapide des colonnes en mémoire basé sur Apache Arrow pour la lecture des données CSV.

    • Exécution basée sur SIMD pour les lectures vectorisées avec des données CSV.

    • La mise à niveau Spark inclut également des optimisations supplémentaires développées sur Amazon EMR.

    • EMRFS mis à niveau de la version 2.38 à 2.46 offrant de nouvelles fonctionnalités et des corrections de bogues pour l'accès à Amazon S3.

  • Mise à niveau de plusieurs dépendances requises pour la nouvelle version de Spark.

  • Pilotes JDBC mis à niveau pour nos sources de données prises en charge en mode natif.

Limites

Voici les limites de AWS Glue  3.0 :

  • AWS Glue les transformations du machine learning ne sont pas encore disponibles dans la AWS Glue version 3.0.

  • Certains connecteurs Spark personnalisés ne fonctionnent pas avec AWS Glue  3.0 s'ils dépendent de Spark 2.4 et ne sont pas compatibles avec Spark 3.1.

AWS Glue 2.0 (obsolète, fin du support)
  • Spark 2.4.3

  • Python 3.7

N/A

Outre les fonctionnalités fournies dans la AWS Glue version 1.0, AWS Glue la version 2.0 fournit également :

  • Une infrastructure améliorée pour exécuter des tâches ETL Apache Spark AWS Glue avec des temps de démarrage réduits.

  • Désormais, la journalisation par défaut est en temps réel, avec des flux séparés pour les pilotes et les exécuteurs, ainsi que des sorties et des erreurs.

  • Prise en charge de la spécification de modules Python supplémentaires ou de versions différentes au niveau de la tâche.

Note

AWS Glue la version 2.0 diffère de AWS Glue la version 1.0 pour certaines dépendances et versions en raison de modifications architecturales sous-jacentes. Validez vos tâches AWS Glue avant de migrer vers les versions AWS Glue majeures.

AWS Glue 1.0 (obsolète, fin du support)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/A

Vous pouvez gérer les signets de tâche pour les formats Parquet et ORC dans les tâches ETL AWS Glue (avec AWS Glue version 1.0). Auparavant, vous ne pouviez mettre en signet que les formats source courants d'Amazon S3 tels que JSON, CSV, Apache Avro et XML dans les tâches AWS Glue ETL.

Lorsque vous définissez les options de format pour les entrées et sorties ETL, vous pouvez spécifier d'utiliser le format de lecture/écriture Apache Avro 1.8 pour prendre en charge la lecture et l'écriture de type logique Avro (à l'aide AWS Glue de la version 1.0). Auparavant, seul le format de lecture/écriture Avro 1.7 était pris en charge.

Le type de connexion DynamoDB prend en charge une option d'écriture (à l'aide de AWS Glue version 1.0).

Limites

Voici les limites de AWS Glue  1.0 :

  • AWS Glue les versions 0.9 et 1.0 ne seront pas disponibles en Asie-Pacifique (Jakarta) (ap-southeast-3), au Moyen-Orient (Émirats arabes unis) (me-central-1) ou dans d'autres nouvelles régions à l'avenir.

AWS Glue 0,9 (obsolète, fin du support)
  • Spark 2.2.1

  • Python 2.7

N/A

Tâches créées sans spécifier de AWS Glue version par défaut, AWS Glue 0,9.

Limites

Voici les limites de AWS Glue  0.9 :

  • AWS Glue les versions 0.9 et 1.0 ne seront pas disponibles en Asie-Pacifique (Jakarta) (ap-southeast-3), au Moyen-Orient (Émirats arabes unis) (me-central-1) ou dans d'autres nouvelles régions à l'avenir.

Note

Les versions de Glue suivantes sont compatibles avec les versions suivantes de PythonShell :

  • PythonShell La version 3.6 est prise en charge dans la version 1.0 de Glue.

  • PythonShell La version 3.9 est prise en charge dans la version 3.0 de Glue.

De plus, les points de terminaison de développement ne sont pris en charge que dans les versions 1.0 et 0.9 de Glue.