Amazon EMR sur les EKS versions 6.9.0

Les versions Amazon EMR 6.9.0 suivantes sont disponibles pour Amazon EMR surEKS. Sélectionnez une XXXX version d'emr-6.9.0- spécifique pour afficher plus de détails, tels que la balise d'image du conteneur associée.

emr-6.9.0-latest
emr-6.9.0-20230905
emr-6.9.0-20230624
emr-6.9.0-20221108
emr-6.9.0- spark-rapids-latest
emr-6.9.0-spark-rapids-20230624
emr-6.9.0-spark-rapids-20221108
notebook-spark/emr-6.9.0-latest
notebook-spark/emr-6.9.0-20230624
notebook-spark/emr-6.9.0-20221108
notebook-python/emr-6.9.0-latest
notebook-python/emr-6.9.0-20230624
notebook-python/emr-6.9.0-20221108

Notes de mise à jour pour Amazon EMR 6.9.0

Applications prises en charge ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
Composants pris en charge : aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

Classifications de configuration prises en charge :

À utiliser avec StartJobRunet CreateManagedEndpointAPIs:

Classifications	Descriptions
`core-site`	Modifiez les valeurs dans le fichier core-site.xml de Hadoop.
`emrfs-site`	Modifiez EMRFS les paramètres.
`spark-metrics`	Modifiez les valeurs dans le fichier metrics.properties de Spark.
`spark-defaults`	Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.
`spark-env`	Modifiez les valeurs dans l'environnement Spark.
`spark-hive-site`	Modifiez les valeurs dans le fichier hive-site.xml de Spark.
`spark-log4j`	Modifiez les valeurs dans le fichier log4j.properties de Spark.

À utiliser spécifiquement avec CreateManagedEndpointAPIs:

Classifications	Descriptions
`jeg-config`	Modifiez les valeurs dans le fichier `jupyter_enterprise_gateway_config.py` Jupyter Enterprise Gateway.
`jupyter-kernel-overrides`	Modifiez la valeur de l'image du noyau dans le fichier Jupyter Kernel Spec.

Les classifications de configuration vous permettent de personnaliser les applications. Ils correspondent souvent à un XML fichier de configuration de l'application, tel quespark-hive-site.xml. Pour plus d'informations, consultez la rubrique Configuration des applications.

Fonctionnalités notables

Nvidia RAPIDS Accelerator pour Apache Spark ‐ Amazon EMR EKS va accélérer Spark à l'aide de types d'instances d'unités de traitement EC2 graphique (GPU). Pour utiliser l'image Spark avec RAPIDS Accelerator, spécifiez l'étiquette de version emr-6.9.0-. spark-rapids-latest Consultez la page de documentation pour en savoir plus.
Connecteur Spark-Redshift ‐ L'intégration Amazon Redshift pour Apache Spark est incluse dans les versions 6.9.0 et ultérieures d'AmazonEMR. Auparavant un outil open-source, l'intégration native est un connecteur Spark que vous pouvez utiliser pour créer des applications Apache Spark capables de lire et d'écrire des données sur Amazon Redshift et Amazon Redshift sans serveur. Pour de plus amples informations, veuillez consulter Utilisation de l'intégration Amazon Redshift pour Apache Spark sur Amazon EMR on EKS.
Delta Lake – Delta Lake est un format de stockage open-source qui permet de créer des lacs de données avec une cohérence transactionnelle, une définition cohérente des jeux de données, des changements dans l'évolution des schémas et la prise en charge des mutations de données. Consultez Utilisation de Delta Lake pour en savoir plus.
Modifier PySpark les paramètres ‐ Les points de terminaison interactifs prennent désormais en charge la modification des paramètres Spark associés aux PySpark sessions dans le bloc-notes EMR Studio Jupyter. Consultez Modifier les paramètres de PySpark session pour en savoir plus.

Problèmes résolus

Lorsque vous utilisez le connecteur DynamoDB avec Spark on EMR Amazon versions 6.6.0, 6.7.0 et 6.8.0, toutes les lectures de votre table renvoient un résultat vide, même si le split d'entrée fait référence à des données non vides. La EMR version 6.9.0 d'Amazon résout ce problème.
Amazon EMR EKS 6.8.0 ne remplit pas correctement le hachage de build dans les métadonnées des fichiers Parquet générés à l'aide d'Apache Spark. Ce problème peut entraîner l'échec des outils qui analysent la chaîne de version des métadonnées à partir des fichiers Parquet générés par Amazon EMR sur EKS 6.8.0.

Problème connu

Si vous utilisez l'intégration Amazon Redshift à Apache Spark et que vous disposez d'un champ de type heure, timetz, horodatage ou timestamptz avec une précision de l'ordre de la microseconde au format Parquet, le connecteur arrondit les valeurs temporelles à la milliseconde la plus proche. Pour contourner le problème, utilisez le paramètre unload_s3_format de format de déchargement du texte.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

emr-6.10.0-20230220

emr-6.9.0-latest