Amazon EMR sur les EKS versions 6.9.0 - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon EMR sur les EKS versions 6.9.0

Les versions Amazon EMR 6.9.0 suivantes sont disponibles pour Amazon EMR surEKS. Sélectionnez une XXXX version d'emr-6.9.0- spécifique pour afficher plus de détails, tels que la balise d'image du conteneur associée.

  • emr-6.9.0-latest

  • emr-6.9.0-20230905

  • emr-6.9.0-20230624

  • emr-6.9.0-20221108

  • emr-6.9.0- spark-rapids-latest

  • emr-6.9.0-spark-rapids-20230624

  • emr-6.9.0-spark-rapids-20221108

  • notebook-spark/emr-6.9.0-latest

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-latest

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

Notes de mise à jour pour Amazon EMR 6.9.0

  • Applications prises en charge ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.

  • Composants pris en charge : aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

  • Classifications de configuration prises en charge :

    À utiliser avec StartJobRunet  CreateManagedEndpointAPIs:

    Classifications Descriptions

    core-site

    Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

    emrfs-site

    Modifiez EMRFS les paramètres.

    spark-metrics

    Modifiez les valeurs dans le fichier metrics.properties de Spark.

    spark-defaults

    Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

    spark-env

    Modifiez les valeurs dans l'environnement Spark.

    spark-hive-site

    Modifiez les valeurs dans le fichier hive-site.xml de Spark.

    spark-log4j

    Modifiez les valeurs dans le fichier log4j.properties de Spark.

    À utiliser spécifiquement avec  CreateManagedEndpointAPIs:

    Classifications Descriptions

    jeg-config

    Modifiez les valeurs dans le fichier jupyter_enterprise_gateway_config.py Jupyter Enterprise Gateway.

    jupyter-kernel-overrides

    Modifiez la valeur de l'image du noyau dans le fichier Jupyter Kernel Spec.

    Les classifications de configuration vous permettent de personnaliser les applications. Ils correspondent souvent à un XML fichier de configuration de l'application, tel quespark-hive-site.xml. Pour plus d'informations, consultez la rubrique Configuration des applications.

Fonctionnalités notables

  • Nvidia RAPIDS Accelerator pour Apache Spark ‐ Amazon EMR EKS va accélérer Spark à l'aide de types d'instances d'unités de traitement EC2 graphique (GPU). Pour utiliser l'image Spark avec RAPIDS Accelerator, spécifiez l'étiquette de version emr-6.9.0-. spark-rapids-latest Consultez la page de documentation pour en savoir plus.

  • Connecteur Spark-Redshift ‐ L'intégration Amazon Redshift pour Apache Spark est incluse dans les versions 6.9.0 et ultérieures d'AmazonEMR. Auparavant un outil open-source, l'intégration native est un connecteur Spark que vous pouvez utiliser pour créer des applications Apache Spark capables de lire et d'écrire des données sur Amazon Redshift et Amazon Redshift sans serveur. Pour de plus amples informations, veuillez consulter Utilisation de l'intégration Amazon Redshift pour Apache Spark sur Amazon EMR on EKS.

  • Delta LakeDelta Lake est un format de stockage open-source qui permet de créer des lacs de données avec une cohérence transactionnelle, une définition cohérente des jeux de données, des changements dans l'évolution des schémas et la prise en charge des mutations de données. Consultez Utilisation de Delta Lake pour en savoir plus.

  • Modifier PySpark les paramètres ‐ Les points de terminaison interactifs prennent désormais en charge la modification des paramètres Spark associés aux PySpark sessions dans le bloc-notes EMR Studio Jupyter. Consultez Modifier les paramètres de PySpark session pour en savoir plus.

Problèmes résolus

Problème connu

  • Si vous utilisez l'intégration Amazon Redshift à Apache Spark et que vous disposez d'un champ de type heure, timetz, horodatage ou timestamptz avec une précision de l'ordre de la microseconde au format Parquet, le connecteur arrondit les valeurs temporelles à la milliseconde la plus proche. Pour contourner le problème, utilisez le paramètre unload_s3_format de format de déchargement du texte.