Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilasci 6.9.0 di Amazon EMR su EKS
I seguenti rilasci 6.9.0 di Amazon EMR sono disponibili per Amazon EMR su EKS. Seleziona un rilascio emr-6.9.0-XXXX specifico per visualizzare ulteriori dettagli, come il relativo tag dell'immagine di container.
-
emr-6.9.0- spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Note di rilascio di Amazon EMR 6.9.0
-
Applicazioni supportate ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
-
Componenti supportati:
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
,spark-kubernetes
. -
Classificazioni di configurazione supportate:
StartJobRunDa utilizzare CreateManagedEndpointcon e API:
Classificazioni Descrizioni core-site
Modifica i valori nel file core-site.xml di Hadoop.
emrfs-site
Modifica le impostazioni EMRFS.
spark-metrics
Modifica i valori nel file metrics.properties di Spark.
spark-defaults
Modifica i valori nel file spark-defaults.conf di Spark.
spark-env
Modifica i valori nell'ambiente Spark.
spark-hive-site
Modifica i valori nel file hive-site.xml di Spark.
spark-log4j
Modifica i valori nel file log4j.properties di Spark.
Da utilizzare specificamente con le CreateManagedEndpointAPI:
Classificazioni Descrizioni jeg-config
Modifica i valori nel file
jupyter_enterprise_gateway_config.py
Jupyter Enterprise Gateway.jupyter-kernel-overrides
Modifica il valore per l'immagine del kernel nel file Jupyter Kernel Spec.
Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un file XML di configurazione per l'applicazione, ad esempio
spark-hive-site.xml
. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.
Funzionalità significative
-
Acceleratore RAPIDS di Nvidia per Apache Spark: Amazon EMR su EKS per accelerare Spark utilizzando tipi di istanza Graphics Processing Unit (GPU) di EC2. Per utilizzare l'immagine Spark con RAPIDS Accelerator, specifica l'etichetta di rilascio come emr-6.9.0-. spark-rapids-latest Per maggiori informazioni, consulta la pagina della documentazione.
-
Connettore Spark-Redshift: l'integrazione di Amazon Redshift per Apache Spark è inclusa in Amazon EMR rilascio 6.9.0 e successivi. In precedenza uno strumento open source, l'integrazione nativa è un connettore Spark che è possibile utilizzare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift Serverless. Per ulteriori informazioni, consulta Uso dell'integrazione di Amazon Redshift per Apache Spark in Amazon EMR su EKS.
-
Delta Lake: Delta Lake
è un formato di archiviazione open source che consente di creare data lake con coerenza transazionale, definizione coerente di set di dati, modifiche all'evoluzione dello schema e supporto per le mutazioni dei dati. Per maggiori informazioni, consulta la sezione Uso di Delta Lake. -
Modifica PySpark parametri ‐ Gli endpoint interattivi ora supportano la modifica dei parametri Spark associati alle PySpark sessioni in EMR Studio Jupyter Notebook. Visita Modificare i parametri della sessione per saperne di più. PySpark
Problemi risolti
-
Quando utilizzi il connettore DynamoDB con Spark nelle versioni 6.6.0, 6.7.0 e 6.8.0 di Amazon EMR, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Amazon EMR rilascio 6.9.0 risolve questo problema.
-
Amazon EMR su EKS 6.8.0 popola in modo errato l'hash di compilazione nei metadati dei file Parquet generati con Apache Spark
. Questo problema può causare errori negli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR su EKS 6.8.0.
Problema noto
-
Se utilizzi l'integrazione di Amazon Redshift per Apache Spark e disponi di un'indicazione temporale time, timez, timestamp o timestamptz con una precisione di microsecondi in formato Parquet, il connettore arrotonda i valori temporali al valore in millisecondi più vicino. Come soluzione alternativa, utilizza il parametro
unload_s3_format
del formato di scaricamento del testo.