AWS Glue versions

Vous pouvez configurer le paramètre de AWS Glue version lorsque vous ajoutez ou mettez à jour une tâche. La AWS Glue version détermine les versions d'Apache Spark et de Python prises AWS Glue en charge. La version de Python indique la version qui est prise en charge pour les tâches de type Spark. Le tableau suivant répertorie les versions d' AWS Glue Glue disponibles, les versions Spark et Python correspondantes, ainsi que les autres modifications de fonctionnalité.

AWS Glue versions

AWS Glue version	Versions d'environnement d'exécution prises en charge	Version Java prise en charge	Changements de fonctionnalité
AWS Glue 5,0	Spark 3.5.4 Python 3.11 Scala 2.12.18	Java 17	Outre les mises à jour du framework, cette AWS Glue version intègre des optimisations et des mises à niveau, telles que : Assistance avec Amazon SageMaker Unified Studio Assistance Amazon SageMaker Lakehouse Open Table Formats (OTF) mis à jour vers Hudi 0.15.0, Iceberg 1.7.1 et Delta Lake 3.3.0 Contrôle d'accès fin natif de Spark à l'aide de Lake Formation. Soutien aux subventions d'accès Amazon S3 `requirements.txt`support pour installer des bibliothèques Python supplémentaires Support du lignage des données sur Amazon DataZone Support pour Amazon S3 Table Bucket AWS Glue Prise en charge de l'affichage multidialecte du catalogue de données Limites Les limites de la AWS Glue version 5.0 sont les suivantes : Le contrôle d'accès au niveau de la table `GlueContext` basé sur Glue Dynamic Frame/ avec AWS Lake Formation des autorisations prises en charge dans Glue 4.0 ou antérieur n'est pas pris en charge dans Glue 5.0. Utilisez le nouveau contrôle d'accès fin natif de Spark (FGAC) dans Glue 5.0. Pour plus d'informations sur la migration vers la AWS Glue version 5.0, consultezMigration AWS Glue des tâches Spark vers la AWS Glue version 5.0.
AWS Glue 4,0	Versions de l'environnement Spark Spark 3.3.0 Python 3.10	Java 8	AWS Glue La version 4.0 intègre un certain nombre d'optimisations et de mises à niveau, telles que : AWS Glue De nombreuses mises à niveau des fonctionnalités Spark de Spark 3.1 vers Spark 3.3 : Plusieurs améliorations de fonctionnalités lorsqu'il est associé à Pandas. Pour plus d'informations, consultez Nouveautés de Spark 3.3. Optimisations supplémentaires développées sur Amazon EMR. Mise à niveau vers le système de fichiers EMR (EMRFS) 2.53. Migration de Log4j 2 à partir de Log4j 1.x Plusieurs mises à jour de modules Python depuis AWS Glue version 3.0, comme une version de Boto mise à niveau. Mise à niveau de plusieurs connecteurs, notamment le connecteur Amazon Redshift par défaut. Consultez Annexe C : Mises à niveau des connecteurs. Mise à niveau de plusieurs pilotes JDBC. Consultez Annexe B : Mises à niveau du pilote JDBC. Utilisation d'un nouveau connecteur Amazon Redshift et d'un nouveau pilote JDBC. Prise en charge native des infrastructures de lac de données ouverts avec Apache Hudi, Delta Lake et Apache Iceberg. Prise en charge native du plug-in Cloud Shuffle Storage basé sur Amazon S3 (un plug-in Apache Spark) permettant d'utiliser Amazon S3 pour la réorganisation et la capacité de stockage élastique. Limites Voici les limites de AWS Glue 4.0 : AWS Glue l'apprentissage automatique et les transformations des informations personnelles identifiables (PII) ne sont pas encore disponibles dans la AWS Glue version 4.0. Pour plus d'informations sur la migration vers AWS Glue version 4.0, consultez Migration AWS Glue des tâches Spark vers la AWS Glue version 4.0.
AWS Glue 4,0	Versions de l'environnement Ray Ray 2.4.0 Python 3.9	N/A	Créez et exécutez des applications Python distribuées avec AWS Glue for Ray. Prend en charge la distribution de données Ray-2.4.0 (`ray[data]`) avec Python 3.9. Pour plus d'informations sur cette version de Ray, consultez Ray-2.4.0 dans le référentiel Ray. GitHub Prend en charge l'installation de bibliothèques Python supplémentaires dans l'environnement d'exécution `Ray2.4`. Pour de plus amples informations, veuillez consulter Modules Python supplémentaires pour les tâches Ray. Intègre les journaux et les statistiques de Ray Jobs avec Amazon CloudWatch. Pour plus d’informations, consultez Résolution AWS Glue des erreurs Ray liées aux journaux et Surveiller les tâches Ray à l'aide de métriques. Regroupe et visualise les métriques des tâches Ray dans AWS Glue Studio, sur la page d'exécution de chaque tâche. Prend en charge la distribution des fichiers dans chaque répertoire de travail de votre cluster, le déversement d'objets du magasin d'objets Ray vers Amazon S3 et le contrôle du nombre minimum de composants master alloués à votre tâche Ray. Pour de plus amples informations, veuillez consulter Utilisation des paramètres de tâche dans les tâches Ray. Limitations des tâches Ray dans la version 4.0 de AWS Glue AWS Glue les sessions interactives pour Ray sont toujours disponibles en avant-première pour cette version. AWS Glue pour Ray, l'intégration avec Amazon VPC n'est pas disponible actuellement. Les ressources d'un VPC in ne AWS seront pas accessibles sans itinéraire public. Pour plus d'informations sur l'utilisation AWS Glue avec Amazon VPC, consultez. Configuration des points de terminaison VPC de l'interface () pour (AWS PrivateLink) AWS GlueAWS PrivateLink AWS Glue for Ray est disponible dans l'est des États-Unis (Virginie du Nord), dans l'est des États-Unis (Ohio), dans l'ouest des États-Unis (Oregon), en Asie-Pacifique (Tokyo) et en Europe (Irlande).
AWS Glue 3,0	Spark 3.1.1 Python 3.7	Java 8	En plus de la mise à niveau du moteur Spark vers 3.0, des optimisations et des mises à niveau sont intégrées à cette version de AWS Glue , telles que : Construit la bibliothèque AWS Glue ETL par rapport à Spark 3.0, qui est une version majeure de Spark. Les tâches de streaming sont prises en charge sur AWS Glue 3.0. Inclut de nouvelles optimisations d'exécution de AWS Glue Spark en termes de performances et de fiabilité : Traitement plus rapide des colonnes en mémoire basé sur Apache Arrow pour la lecture des données CSV. Exécution basée sur SIMD pour les lectures vectorisées avec des données CSV. La mise à niveau Spark inclut également des optimisations supplémentaires développées sur Amazon EMR. EMRFS mis à niveau de la version 2.38 à 2.46 offrant de nouvelles fonctionnalités et des corrections de bogues pour l'accès à Amazon S3. Mise à niveau de plusieurs dépendances requises pour la nouvelle version de Spark. Pilotes JDBC mis à niveau pour nos sources de données prises en charge en mode natif. Limites Voici les limites de AWS Glue 3.0 : AWS Glue les transformations du machine learning ne sont pas encore disponibles dans la AWS Glue version 3.0. Certains connecteurs Spark personnalisés ne fonctionnent pas avec AWS Glue 3.0 s'ils dépendent de Spark 2.4 et ne sont pas compatibles avec Spark 3.1.
AWS Glue 2.0 (fin de vie le 1er avril 2026)	Spark 2.4.3 Python 3.7	N/A	Outre les fonctionnalités fournies dans la AWS Glue version 1.0, AWS Glue la version 2.0 fournit également : Une infrastructure améliorée pour exécuter des tâches ETL Apache Spark AWS Glue avec des temps de démarrage réduits. Désormais, la journalisation par défaut est en temps réel, avec des flux séparés pour les pilotes et les exécuteurs, ainsi que des sorties et des erreurs. Prise en charge de la spécification de modules Python supplémentaires ou de versions différentes au niveau de la tâche. Note AWS Glue la version 2.0 diffère de AWS Glue la version 1.0 pour certaines dépendances et versions en raison de modifications architecturales sous-jacentes. Validez vos tâches AWS Glue avant de migrer vers les versions AWS Glue majeures.
AWS Glue 1,0 (fin de vie le 1er avril 2026)	Spark 2.4.3 Python 2.7 Python 3.6	N/A	Vous pouvez gérer les signets de tâche pour les formats Parquet et ORC dans les tâches ETL AWS Glue (avec AWS Glue version 1.0). Auparavant, vous pouviez uniquement mettre en signet les formats source Amazon S3 courants tels que JSON, CSV, Apache Avro et XML dans les tâches AWS Glue ETL. Lorsque vous définissez les options de format pour les entrées et sorties ETL, vous pouvez spécifier d'utiliser le reader/writer format Apache Avro 1.8 pour prendre en charge la lecture et l'écriture du type logique Avro (à l'aide de la AWS Glue version 1.0). Auparavant, seul le reader/writer format Avro version 1.7 était pris en charge. Le type de connexion DynamoDB prend en charge une option d'écriture (à l'aide de AWS Glue version 1.0). Limites Voici les limites de AWS Glue 1.0 : AWS Glue les versions 0.9 et 1.0 ne seront pas disponibles en Asie-Pacifique (Jakarta) (`ap-southeast-3`), au Moyen-Orient (Émirats arabes unis) (`me-central-1`) ou dans d'autres nouvelles régions à l'avenir.
AWS Glue 0,9 (fin de vie le 1er avril 2026)	Spark 2.2.1 Python 2.7	N/A	Tâches créées sans spécifier de AWS Glue version par défaut, AWS Glue 0,9. Limites Voici les limites de AWS Glue 0.9 : AWS Glue les versions 0.9 et 1.0 ne seront pas disponibles en Asie-Pacifique (Jakarta) (`ap-southeast-3`), au Moyen-Orient (Émirats arabes unis) (`me-central-1`) ou dans d'autres nouvelles régions à l'avenir.

Note

Les versions de Glue suivantes sont compatibles avec les versions suivantes de PythonShell :

PythonShell La version 3.6 est prise en charge dans la version 1.0 de Glue.
PythonShell La version 3.9 est prise en charge dans la version 3.0 de Glue.

De plus, les points de terminaison de développement ne sont pris en charge que dans les versions 1.0 et 0.9 de Glue.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Travail avec les tâches

Politique de prise en charge des versions AWS Glue

AWS Glue versions