Versions 6.8.0 d'Amazon EMR on EKS

Les versions 6.8.0 suivantes d'Amazon EMR sont disponibles pour Amazon EMR on EKS. Sélectionnez une version emr-6.8.0-XXXX spécifique pour voir plus de détails tels que la balise de l'image du conteneur correspondant.

Notes de mise à jour pour Amazon EMR 6.8.0

Applications prises en charge ‐ AWS SDK pour Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.
Composants pris en charge : aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

Classifications de configuration prises en charge :

Classifications	Descriptions
`core-site`	Modifiez les valeurs dans le fichier core-site.xml de Hadoop.
`emrfs-site`	Modifiez les paramètres EMRFS.
`spark-metrics`	Modifiez les valeurs dans le fichier metrics.properties de Spark.
`spark-defaults`	Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.
`spark-env`	Modifiez les valeurs dans l'environnement Spark.
`spark-hive-site`	Modifiez les valeurs dans le fichier hive-site.xml de Spark.
`spark-log4j`	Modifiez les valeurs dans le fichier log4j.properties de Spark.

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier XML de configuration de l'application, tel que spark-hive-site.xml. Pour plus d'informations, consultez la rubrique Configuration des applications.

Fonctionnalités notables

Spark3.3.0 – Amazon EMR on EKS 6.8 inclut Spark 3.3.0, qui prend en charge l'utilisation d'étiquettes de sélecteur de nœud distinctes pour les pods d'exécuteurs du pilote Spark. Ces nouvelles étiquettes vous permettent de définir les types de nœuds pour les modules pilote et exécuteur séparément dans l' StartJobRun API, sans utiliser de modèles de modules.
- Propriété du sélecteur de nœud du pilote : spark.kubernetes.driver.node.selector.[labelKey]
- Propriété du sélecteur de nœud de l'exécuteur : spark.kubernetes.driver.node.selector.[labelKey]

Amélioration du message d'échec des tâches – Cette version introduit la configuration spark.stage.extraDetailsOnFetchFailures.enabled et spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude pour suivre les échecs des tâches dus au code de l'utilisateur. Ces informations seront utilisées pour améliorer le message d'échec affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'un échec de récupération lors du réarrangement.

Nom de la propriété Valeur par défaut Signification Depuis la version

Nom de la propriété	Valeur par défaut	Signification	Depuis la version
`spark.stage.extraDetailsOnFetchFailures.enabled`	false	Si elle est définie sur `true`, cette propriété est utilisée pour améliorer le message d'échec affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'échecs de récupération lors du réarrangement. Par défaut, les 5 derniers échecs de tâches causés par le code utilisateur sont suivis et le message d'erreur de l'échec est ajouté aux journaux des pilotes. Pour augmenter le nombre d'échecs de tâches avec des exceptions utilisateur à suivre, consultez la configuration `spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude`.	emr-6.8
`spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude`	5	Nombre d'échecs de tâches à suivre par étape et par tentative. Cette propriété est utilisée pour améliorer le message d'échec avec des exceptions utilisateur affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'échecs de récupération lors du réarrangement. Cette propriété ne fonctionne que si Config spark.stage. extraDetailsOnFetchFailures.enabled est défini sur true.	emr-6.8

spark.stage.extraDetailsOnFetchFailures.enabled

false

Si elle est définie sur true, cette propriété est utilisée pour améliorer le message d'échec affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'échecs de récupération lors du réarrangement. Par défaut, les 5 derniers échecs de tâches causés par le code utilisateur sont suivis et le message d'erreur de l'échec est ajouté aux journaux des pilotes.

Pour augmenter le nombre d'échecs de tâches avec des exceptions utilisateur à suivre, consultez la configuration spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude.

emr-6.8

spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude

Nombre d'échecs de tâches à suivre par étape et par tentative. Cette propriété est utilisée pour améliorer le message d'échec avec des exceptions utilisateur affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'échecs de récupération lors du réarrangement.

Cette propriété ne fonctionne que si Config spark.stage. extraDetailsOnFetchFailures.enabled est défini sur true.

emr-6.8

Pour plus d'informations, consultez la documentation de configuration d'Apache Spark.

Problème connu

Amazon EMR on EKS 6.8.0 ne remplit pas correctement le hachage de création dans les métadonnées des fichiers Parquet générées à l'aide d'Apache Spark. Ce problème peut entraîner l'échec des outils qui analysent la chaîne de version des métadonnées à partir des fichiers Parquet générés par Amazon EMR on EKS 6.8.0. Les clients qui analysent la chaîne de version à partir des métadonnées Parquet et qui dépendent du hachage de création doivent passer à une version différente d'Amazon EMR et réécrire le fichier.

Problème résolu

Fonctionnalité d'interruption du noyau pour les noyaux PySpark – Les charges de travail interactives en cours qui sont déclenchées par l'exécution de cellules dans un bloc-notes peuvent être arrêtées à l'aide de la fonctionnalité Interrupt Kernel. Un correctif a été introduit pour que cette fonctionnalité soit disponible pour les noyaux pySpark. Ceci est également disponible en open source sur Changes pour gérer les interruptions pour PySpark Kubernetes Kernel #1115.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

emr-6.9.0-20221108

emr-6.8.0-latest