Versioni AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Versioni AWS Glue

È possibile configurare il parametro della versione di AWS Glue quando si aggiunge o si aggiorna un processo. La versione AWS Glue determina le versioni di Apache Spark e Python supportate da AWS Glue. La versione Python indica la versione supportata per i processi di tipo Spark. La tabella seguente elenca le versioni AWS Glue disponibili, le versioni Spark e Python corrispondenti e altre modifiche di funzionalità.

Versioni AWS Glue

AWS Glue versione Versioni dell'ambiente di runtime supportate Versione Java supportata Modifiche della funzionalità
AWS Glue4.0 Versioni dell'ambiente Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 è la versione più recente di AWS Glue. In questa versione di AWS Glue sono presenti diverse ottimizzazioni e aggiornamenti, come:

  • Numerosi aggiornamenti delle funzionalità Spark da Spark 3.1 a Spark 3.3:

    • Diversi miglioramenti delle funzionalità se abbinato a Pandas. Per ulteriori informazioni, consulta Novità di Spark 3.3.

    • Ottimizzazioni aggiuntive sviluppate su Amazon EMR.

    • Aggiornamento a EMR File System (EMRFS) 2.53.

  • Migrazione a Log4j 2 da Log4j 1.x

  • Diversi aggiornamenti del modulo Python da AWS Glue 3.0, come una versione aggiornata di Boto.

  • Aggiornamento di diversi connettori, tra cui il connettore Amazon Redshift predefinito. Per informazioni, consulta Appendice C: Aggiornamenti dei connettori.

  • Aggiornamento di diversi driver JDBC. Per informazioni, consulta Appendice B: aggiornamenti dei driver JDBC.

  • Aggiornato con un nuovo connettore Amazon Redshift e driver JDBC.

  • Supporto nativo per framework open data lake con Apache Hudi, Delta Lake e Apache Iceberg.

  • Supporto nativo per il Cloud Shuffle Storage Plugin basato su Amazon S3 (un plug-in Apache Spark) per utilizzare Amazon S3 per lo shuffling e la capacità di archiviazione elastica.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 4.0:

  • Il machine learning e le trasformazioni di informazioni di identificazione personale (PII) di AWS Glue non sono ancora disponibili in AWS Glue 4.0.

Per ulteriori informazioni sulla migrazione a AWS Glue versione 4.0, consulta Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 4.0.

Versioni dell'ambiente Ray
  • Ray 2.4.0

    Python 3.9

N/D

Crea ed esegui applicazioni Python distribuite con AWS Glue for Ray.

Limitazioni sui processi Ray in AWS Glue 4.0

  • AWS Glue le sessioni interattive per Ray rimangono disponibili in anteprima per questa versione.

  • AWS Glue l'integrazione di for Ray con Amazon VPC non è attualmente disponibile. Le risorse in un VPC in non AWS saranno accessibili senza un percorso pubblico. Per ulteriori informazioni sull'utilizzo AWS Glue con Amazon VPC, consulta. AWS Glue ed endpoint VPC dell'interfaccia (AWS PrivateLink)

  • AWS Glue for Ray è disponibile negli Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Tokyo) ed Europa (Irlanda).

AWS Glue3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Oltre all'aggiornamento del motore Spark a 3.0, questa versione di AWS Glue presenta ottimizzazioni e aggiornamenti integrati, ad esempio:

  • Creazione della libreria ETL di AWS Glue su Spark 3.0, che è una release principale per Spark.

  • I processi di streaming sono supportati su AWS Glue 3.0.

  • Include nuove ottimizzazioni del runtime di Spark AWS Glue per prestazioni e affidabilità:

    • Elaborazione colonnare in memoria più veloce basata su Apache Arrow per la lettura dei dati CSV.

    • Esecuzione basata su SIMD per letture vettorizzate con dati CSV.

    • L'aggiornamento Spark include anche ulteriori ottimizzazioni sviluppate su Amazon EMR.

    • EMRFS aggiornato da 2.38 a 2.46, con l'abilitazione di nuove caratteristiche e correzioni di bug per l'accesso ad Amazon S3.

  • Sono state aggiornate diverse dipendenze necessarie per la nuova versione di Spark. Per informazioni, consulta Appendice A: aggiornamenti notevoli delle dipendenze.

  • Driver JDBC aggiornati per le nostre origini dati supportate in modo nativo. Per informazioni, consulta Appendice B: aggiornamenti dei driver JDBC.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 3.0:

  • Le trasformazioni basate su machine learning di AWS Glue non sono ancora disponibili in AWS Glue 3.0.

  • Alcuni connettori Spark personalizzati non funzionano con AWS Glue 3.0 se dipendono da Spark 2.4 e non sono compatibili con Spark 3.1.

Per ulteriori informazioni sulla migrazione a AWS Glue versione 3.0, consulta Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 3.0.

AWS Glue2.0 (obsoleto, fine del supporto)
  • Spark 2.4.3

  • Python 3.7

N/D

Oltre alle caratteristiche fornite in AWS Glue versione 1.0, AWS Glue versione 2.0 fornisce inoltre:

  • Un'infrastruttura aggiornata per l'esecuzione dei processi ETL di Apache Spark in AWS Glue con tempi di avvio ridotti.

  • La registrazione di default è ora in tempo reale, con flussi separati per driver ed esecutori, e contiene output ed errori.

  • Supporto per la specifica di moduli Python o versioni diverse aggiuntivi a livello di processo.

Nota

AWS Glue versione 2.0 differisce da AWS Glue versione 1.0 per alcune dipendenze e versioni dovute a modifiche a livello di architettura. Convalida i processi AWS Glue prima di eseguire la migrazione tra le versioni principali di AWS Glue.

Per ulteriori informazioni sulle funzionalità e le limitazioni di AWS Glue versione 2.0, consulta Esecuzione di processi ETL Spark con tempi di avvio ridotti.

AWS Glue1.0 (obsoleta, fine del supporto)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/D

Puoi mantenere i segnalibri dei processi per i formati Parquet e ORC nei processi AWS Glue ETL (utilizzando AWS Glue versione 1.0). In precedenza, era possibile creare segnalibri solo di formati di origine Amazon S3 comuni come JSON, CSV, Apache Avro e XML nei processi AWS Glue ETL.

Quando imposti le opzioni di formato per gli ingressi e le uscite ETL, puoi specificare di utilizzare il formato di lettura/scrittura Apache Avro 1.8 per supportare la lettura e la scrittura del tipo logico Avro (usando AWS Glue versione 1.0). In precedenza, era supportata solo la versione 1.7 del formato di lettura/scrittura Avro.

Il tipo di connessione DynamoDB supporta un'opzione di scrittura (utilizzando AWS Glue versione 1.0).

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 1.0:

  • Le versioni 0.9 e 1.0 di AWS Glue non sono disponibili nelle Regioni Asia Pacifico (Giacarta) (ap-southeast-3), Medio Oriente (Emirati Arabi Uniti) (me-central-1) o altre nuove Regioni in futuro.

AWS Glue0.9 (obsoleta, fine del supporto)
  • Spark 2.2.1

  • Python 2.7

N/D

I processi che sono stati creati senza specificare una versione di AWS Glue utilizzeranno AWS Glue 0.9 per impostazione predefinita.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 0.9:

  • Le versioni 0.9 e 1.0 di AWS Glue non sono disponibili nelle Regioni Asia Pacifico (Giacarta) (ap-southeast-3), Medio Oriente (Emirati Arabi Uniti) (me-central-1) o altre nuove Regioni in futuro.