Rilasci 6.9.0 di Amazon EMR su EKS

I seguenti rilasci 6.9.0 di Amazon EMR sono disponibili per Amazon EMR su EKS. Seleziona un rilascio emr-6.9.0-XXXX specifico per visualizzare ulteriori dettagli, come il relativo tag dell'immagine di container.

emr-6.9.0-latest
emr-6.9.0-20230624
emr-6.9.0-20221108
emr-6.9.0- spark-rapids-latest
emr-6.9.0-spark-rapids-20230624
emr-6.9.0-spark-rapids-20221108
notebook-spark/emr-6.9.0-latest
notebook-spark/emr-6.9.0-20230624
notebook-spark/emr-6.9.0-20221108
notebook-python/emr-6.9.0-latest
notebook-python/emr-6.9.0-20230624
notebook-python/emr-6.9.0-20221108

Note di rilascio di Amazon EMR 6.9.0

Applicazioni supportate ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
Componenti supportati: aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

Classificazioni di configurazione supportate:

StartJobRunDa utilizzare CreateManagedEndpointcon e API:

Classificazioni	Descrizioni
`core-site`	Modifica i valori nel file core-site.xml di Hadoop.
`emrfs-site`	Modifica le impostazioni EMRFS.
`spark-metrics`	Modifica i valori nel file metrics.properties di Spark.
`spark-defaults`	Modifica i valori nel file spark-defaults.conf di Spark.
`spark-env`	Modifica i valori nell'ambiente Spark.
`spark-hive-site`	Modifica i valori nel file hive-site.xml di Spark.
`spark-log4j`	Modifica i valori nel file log4j.properties di Spark.

Da utilizzare specificamente con le CreateManagedEndpointAPI:

Classificazioni	Descrizioni
`jeg-config`	Modifica i valori nel file `jupyter_enterprise_gateway_config.py` Jupyter Enterprise Gateway.
`jupyter-kernel-overrides`	Modifica il valore per l'immagine del kernel nel file Jupyter Kernel Spec.

Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un file XML di configurazione per l'applicazione, ad esempio spark-hive-site.xml. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.

Funzionalità significative

Acceleratore RAPIDS di Nvidia per Apache Spark: Amazon EMR su EKS per accelerare Spark utilizzando tipi di istanza Graphics Processing Unit (GPU) di EC2. Per utilizzare l'immagine Spark con RAPIDS Accelerator, specifica l'etichetta di rilascio come emr-6.9.0-. spark-rapids-latest Per maggiori informazioni, consulta la pagina della documentazione.
Connettore Spark-Redshift: l'integrazione di Amazon Redshift per Apache Spark è inclusa in Amazon EMR rilascio 6.9.0 e successivi. In precedenza uno strumento open source, l'integrazione nativa è un connettore Spark che è possibile utilizzare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift Serverless. Per ulteriori informazioni, consulta Uso dell'integrazione di Amazon Redshift per Apache Spark in Amazon EMR su EKS.
Delta Lake: Delta Lake è un formato di archiviazione open source che consente di creare data lake con coerenza transazionale, definizione coerente di set di dati, modifiche all'evoluzione dello schema e supporto per le mutazioni dei dati. Per maggiori informazioni, consulta la sezione Uso di Delta Lake.
Modifica PySpark parametri ‐ Gli endpoint interattivi ora supportano la modifica dei parametri Spark associati alle PySpark sessioni in EMR Studio Jupyter Notebook. Visita Modificare i parametri della sessione per saperne di più. PySpark

Problemi risolti

Quando utilizzi il connettore DynamoDB con Spark nelle versioni 6.6.0, 6.7.0 e 6.8.0 di Amazon EMR, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Amazon EMR rilascio 6.9.0 risolve questo problema.
Amazon EMR su EKS 6.8.0 popola in modo errato l'hash di compilazione nei metadati dei file Parquet generati con Apache Spark. Questo problema può causare errori negli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR su EKS 6.8.0.

Problema noto

Se utilizzi l'integrazione di Amazon Redshift per Apache Spark e disponi di un'indicazione temporale time, timez, timestamp o timestamptz con una precisione di microsecondi in formato Parquet, il connettore arrotonda i valori temporali al valore in millisecondi più vicino. Come soluzione alternativa, utilizza il parametro unload_s3_format del formato di scaricamento del testo.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

emr-6.10.0-20230220

emr-6.9.0-latest