Amazon EMR sur les EKS versions 6.8.0 - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon EMR sur les EKS versions 6.8.0

Les versions Amazon EMR 6.8.0 suivantes sont disponibles pour Amazon EMR surEKS. Sélectionnez une XXXX version d'emr-6.8.0- spécifique pour afficher plus de détails, tels que la balise d'image du conteneur associée.

Notes de mise à jour pour Amazon EMR 6.8.0

  • Applications prises en charge ‐ AWS SDK for Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.

  • Composants pris en charge : aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

  • Classifications de configuration prises en charge :

    Classifications Descriptions

    core-site

    Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

    emrfs-site

    Modifiez EMRFS les paramètres.

    spark-metrics

    Modifiez les valeurs dans le fichier metrics.properties de Spark.

    spark-defaults

    Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

    spark-env

    Modifiez les valeurs dans l'environnement Spark.

    spark-hive-site

    Modifiez les valeurs dans le fichier hive-site.xml de Spark.

    spark-log4j

    Modifiez les valeurs dans le fichier log4j.properties de Spark.

    Les classifications de configuration vous permettent de personnaliser les applications. Ils correspondent souvent à un XML fichier de configuration de l'application, tel quespark-hive-site.xml. Pour plus d'informations, consultez la rubrique Configuration des applications.

Fonctionnalités notables

  • Spark3.3.0 ‐ Amazon EMR sur EKS 6.8 inclut Spark 3.3.0, qui prend en charge l'utilisation d'étiquettes de sélecteur de nœuds distinctes pour les pods d'exécuteurs de pilotes Spark. Ces nouvelles étiquettes vous permettent de définir les types de nœuds pour les modules pilote et exécuteur séparément dans le StartJobRun API, sans utiliser de modèles de modules.

    • Propriété du sélecteur de nœud du pilote : spark.kubernetes.driver.node.selector. [labelKey]

    • Propriété du sélecteur de nœud de l'exécuteur : spark.kubernetes.executor.node.selector. [labelKey]

  • Amélioration du message d'échec des tâches – Cette version introduit la configuration spark.stage.extraDetailsOnFetchFailures.enabled et spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude pour suivre les échecs des tâches dus au code de l'utilisateur. Ces informations seront utilisées pour améliorer le message d'échec affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'un échec de récupération lors du réarrangement.

    Nom de la propriété Valeur par défaut Signification Depuis la version

    spark.stage.extraDetailsOnFetchFailures.enabled

    false

    Si elle est définie sur true, cette propriété est utilisée pour améliorer le message d'échec affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'échecs de récupération lors du réarrangement. Par défaut, les 5 derniers échecs de tâches causés par le code utilisateur sont suivis et le message d'erreur de l'échec est ajouté aux journaux des pilotes.

    Pour augmenter le nombre d'échecs de tâches avec des exceptions utilisateur à suivre, consultez la configuration spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude.

    emr-6.8

    spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude

    5

    Nombre d'échecs de tâches à suivre par étape et par tentative. Cette propriété est utilisée pour améliorer le message d'échec avec des exceptions utilisateur affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'échecs de récupération lors du réarrangement.

    Cette propriété ne fonctionne que si Config spark.stage. extraDetailsOnFetchFailures.enabled est défini sur true.

    emr-6.8

Pour plus d'informations, consultez la documentation de configuration d'Apache Spark.

Problème connu

Problème résolu

  • Interrompre la capacité du noyau pour pySpark les noyaux ‐ En cours, les charges de travail interactives déclenchées par l'exécution de cellules dans un bloc-notes peuvent être arrêtées à l'Interrupt Kernelaide de cette fonctionnalité. Un correctif a été introduit afin que cette fonctionnalité fonctionne pour les pySpark noyaux. Ceci est également disponible en open source sur Changes pour gérer les interruptions pour PySpark Kubernetes Kernel #1115.