AWS Glue versioni - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue versioni

Puoi configurare AWS Glue parametro della versione di quando si aggiunge o si aggiorna un processo. Il AWS Glue version determina le versioni di Apache Spark e Python che AWS Glue supporti. La versione Python indica la versione supportata per i processi di tipo Spark. La tabella seguente elenca le disponibili AWS Glue versioni, le versioni Spark e Python corrispondenti e altre modifiche di funzionalità.

AWS Glue versioni

AWS Glue versione Versioni dell'ambiente di runtime supportate Versione di Java supportata Modifiche della funzionalità
AWS Glue 4.0 Versioni dell'ambiente Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 è la versione più recente di AWS Glue. In questo sono presenti diverse ottimizzazioni e aggiornamenti. AWS Glue versione, ad esempio:

  • Numerosi aggiornamenti delle funzionalità Spark da Spark 3.1 a Spark 3.3:

    • Diversi miglioramenti delle funzionalità se abbinato a Pandas. Per ulteriori informazioni, consulta Novità di Spark 3.3.

    • Ottimizzazioni aggiuntive sviluppate su AmazonEMR.

    • Aggiornamento a EMR File System (EMRFS) 2.53.

  • Migrazione a Log4j 2 da Log4j 1.x

  • Diversi aggiornamenti del modulo Python da AWS Glue 3.0, come una versione aggiornata di Boto.

  • Aggiornamento di diversi connettori, tra cui il connettore Amazon Redshift predefinito. Per informazioni, consulta Appendice C: Aggiornamenti dei connettori.

  • Aggiornamento di diversi JDBC driver. Per informazioni, consulta Appendice B: aggiornamenti dei driver JDBC.

  • Aggiornato con un nuovo connettore e JDBC driver Amazon Redshift.

  • Supporto nativo per framework open data lake con Apache Hudi, Delta Lake e Apache Iceberg.

  • Supporto nativo per il Cloud Shuffle Storage Plugin basato su Amazon S3 (un plug-in Apache Spark) per utilizzare Amazon S3 per lo shuffling e la capacità di archiviazione elastica.

Limitazioni

Seguono alcune delle limitazioni di AWS Glue 4.0:

  • AWS Glue Il machine learning e le trasformazioni di informazioni di identificazione personale (PII) di non sono ancora disponibili in AWS Glue 4.0.

Per ulteriori informazioni sulla migrazione a AWS Glue versione 4.0, consultaMigrazione dei processi AWS Glue per Spark ad AWS Glue versione 4.0.

Versioni dell'ambiente Ray
  • Ray 2.4.0

    Python 3.9

N/D

Crea ed esegui applicazioni Python distribuite con AWS Glue per Ray.

Limitazioni sui processi Ray in AWS Glue 4.0

  • AWS Glue Le sessioni interattive per Ray rimangono disponibili in anteprima per questa versione.

  • AWS Glue L'integrazione di per Ray con Amazon non VPC è attualmente disponibile. Le risorse VPC in un in non AWS saranno accessibili senza un percorso pubblico. Per ulteriori informazioni sull'utilizzo AWS Glue con AmazonVPC, consultaConfigurazione degli VPC endpoint dell'interfaccia (AWS PrivateLink) per AWS Glue ()AWS PrivateLink.

  • AWS Glue Per Ray è disponibile nelle Regioni Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Tokyo) ed Europa (Irlanda).

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Oltre all'aggiornamento del motore Spark a 3.0, questo presenta ottimizzazioni e aggiornamenti integrati AWS Glue versione, ad esempio:

  • Creazione del AWS Glue ETLLibreria contro Spark 3.0, che è una release principale per Spark.

  • I processi di streaming sono supportati su AWS Glue 3.0.

  • Include nuove AWS Glue Ottimizzazioni del runtime di Spark per prestazioni e affidabilità:

    • Elaborazione colonnare in memoria più veloce basata su Apache Arrow per la lettura dei dati. CSV

    • SIMDesecuzione basata per letture vettorizzate con dati. CSV

    • L'aggiornamento Spark include anche ulteriori ottimizzazioni sviluppate su Amazon. EMR

    • Aggiornato EMRFS da 2.38 a 2.46, con l'abilitazione di nuove caratteristiche e correzioni di bug per l'accesso ad Amazon S3.

  • Sono state aggiornate diverse dipendenze necessarie per la nuova versione di Spark. Per informazioni, consulta Appendice A: aggiornamenti notevoli delle dipendenze.

  • JDBCDriver aggiornati per le nostre origini dati supportate in modo nativo. Per informazioni, consulta Appendice B: aggiornamenti dei driver JDBC.

Limitazioni

Seguono alcune delle limitazioni di AWS Glue 3.0:

  • AWS Glue Le trasformazioni basate su machine learning di non sono ancora disponibili in AWS Glue 3.0.

  • Alcuni connettori Spark personalizzati non funzionano con AWS Glue 3.0 se dipendono da Spark 2.4 e non sono compatibili con Spark 3.1.

Per ulteriori informazioni sulla migrazione a AWS Glue versione 3.0, consultaMigrazione dei processi AWS Glue per Spark ad AWS Glue versione 3.0.

AWS Glue 2.0 (obsoleto, fine del supporto)
  • Spark 2.4.3

  • Python 3.7

N/D

Oltre alle funzionalità fornite in AWS Glue versione 1.0, AWS Glue versione 2.0 fornisce anche:

  • Un'infrastruttura aggiornata per l'esecuzione dei processi Apache ETL Spark in AWS Glue con tempi di avvio ridotti.

  • La registrazione di default è ora in tempo reale, con flussi separati per driver ed esecutori, e contiene output ed errori.

  • Supporto per la specifica di moduli Python o versioni diverse aggiuntivi a livello di processo.

Nota

AWS Glue versione 2.0 differisce da AWS Glue versione 1.0 per alcune dipendenze e versioni dovute a modifiche sottostanti a livello di architettura. Convalida del AWS Glue lavori prima di migrare tra le principali AWS Glue rilasci di versione.

Per ulteriori informazioni sull' AWS Glue caratteristiche e limitazioni di versione 2.0, consultaEsecuzione di processi ETL Spark con tempi di avvio ridotti.

AWS Glue 1.0 (obsoleto, fine del supporto)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/D

È possibile mantenere i segnalibri di lavoro per Parquet e i formati in ORC AWS Glue ETLlavori (utilizzando AWS Glue versione 1.0). In precedenza, era possibile creare segnalibri solo di formati di origine Amazon S3 comuni JSON comeCSV, Apache Avro e in XML AWS Glue ETLlavori.

Quando imposti le opzioni di formato per ETL gli ingressi e le uscite, puoi specificare di utilizzare il formato di lettura/scrittura Apache Avro 1.8 per supportare la lettura e la scrittura del tipo logico Avro (usando AWS Glue versione 1.0). In precedenza, era supportata solo la versione 1.7 del formato di lettura/scrittura Avro.

Il tipo di connessione DynamoDB supporta un'opzione di scrittura (utilizzando AWS Glue versione 1.0).

Limitazioni

Seguono alcune delle limitazioni di AWS Glue 1.0:

  • AWS Glue Le versioni 0.9 e 1.0 di non sono disponibili nelle Regioni Asia Pacifico (Giacartaap-southeast-3) (), Medio Oriente (UAE) (me-central-1) o altre nuove Regioni future.

AWS Glue 0.9 (obsoleta, fine del supporto)
  • Spark 2.2.1

  • Python 2.7

N/D

Lavori che sono stati creati senza specificare un AWS Glue versione predefinita su AWS Glue 0,9.

Limitazioni

Seguono alcune delle limitazioni di AWS Glue 0,9:

  • AWS Glue Le versioni 0.9 e 1.0 di non sono disponibili nelle Regioni Asia Pacifico (Giacartaap-southeast-3) (), Medio Oriente (UAE) (me-central-1) o altre nuove Regioni future.

Nota

Le seguenti versioni di Glue supportano queste versioni di PythonShell:

  • PythonShell v3.6 è supportato in Glue versione 1.0.

  • PythonShell v3.9 è supportato in Glue versione 3.0.

Inoltre, gli endpoint di sviluppo sono supportati solo nelle versioni 1.0 e 0.9 di Glue.