Amazon EMR on EKS 6.9.0 版本 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon EMR on EKS 6.9.0 版本

以下 Amazon EMR 6.9.0 版本适用于 Amazon EMR on EKS。选择特定的 emr-6.9.0-XXXX 版本以查看更多详细信息,例如相关的容器映像标签。

  • emr-6.9.0-latest

  • emr-6.9.0-20230624

  • emr-6.9.0-20221108

  • emr-6.9.0-spark-rapids-latest

  • emr-6.9.0-spark-rapids-20230624

  • emr-6.9.0-spark-rapids-20221108

  • notebook-spark/emr-6.9.0-latest

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-latest

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

Amazon EMR 6.9.0 的发布说明

  • 支持的应用程序- AWS SDK for Java 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。

  • 支持的组件:aws-sagemaker-spark-sdkemr-ddbemr-goodiesemr-s3-selectemrfshadoop-clienthudihudi-sparkicebergspark-kubernetes

  • 受支持的配置分类:

    要与StartJobRun CreateManagedEndpointAPI 一起使用:

    分类 描述

    core-site

    更改 Hadoop 的 core-site.xml 文件中的值。

    emrfs-site

    更改 EMRFS 设置。

    spark-metrics

    更改 Spark 的 metrics.properties 文件中的值。

    spark-defaults

    更改 Spark 的 spark-defaults.conf 文件中的值。

    spark-env

    更改 Spark 环境中的值。

    spark-hive-site

    更改 Spark 的 hive-site.xml 文件中的值。

    spark-log4j

    更改 Spark 的 log4j.properties 文件中的值。

    专门用于 CreateManagedEndpointAPI:

    分类 描述

    jeg-config

    更改 Jupyter Enterprise Gateway jupyter_enterprise_gateway_config.py 文件中的值。

    jupyter-kernel-overrides

    更改 Jupyter 内核规范文件中内核映像的值。

    配置分类允许您自定义应用程序。这些通常与应用程序的配置 XML 文件(例如 spark-hive-site.xml)相对应。有关更多信息,请参阅配置应用程序

显著功能

  • 适用于 Apache Spark 的 Nvidia RAPIDS Accelerator:Amazon EMR on EKS 使用 EC2 图形处理单元(GPU)实例类型加速 Spark。要将 Spark 图像与 RAPIDS Accelerator 一起使用,请将发布标签指定为 emr-6.9.0-。spark-rapids-latest请访问文档页面以了解更多信息。

  • Spark-Redshift 连接器:Amazon EMR 发行版 6.9.0 及更高版本包含适用于 Apache Spark 的 Amazon Redshift 集成。本地集成之前是一种开源工具,现在是 Spark 连接器,您可以将其用于构建 Apache Spark 应用程序,这些应用程序可在 Amazon Redshift 和 Amazon Redshift Serverless 中读取和写入数据。有关更多信息,请参阅 在 Amazon EMR on EKS 上使用适用于 Apache Spark 的 Amazon Redshift 集成

  • Delta LakeDelta Lake 是一种开源存储格式,可以构建具有事务一致性、对数据集进行一致定义、更改架构发展和数据的数据湖。请访问 使用 Delta Lake 以了解更多信息。

  • 修改 PySpark 参数 ——交互式端点现在支持修改与 EMR Studio Jupyter 笔记本中的 PySpark 会话关联的 Spark 参数。要了解更多信息,请访问修改会 PySpark 话参数

已解决的问题

  • 在 Amazon EMR 版本 6.6.0、6.7.0 和 6.8.0 上将 DynamoDB 连接器与 Spark 结合使用时,即使输入拆分引用了非空数据,表中的所有读取都会返回空结果。Amazon EMR 发行版 6.9.0 修复了此问题。

  • Amazon EMR on EKS 6.8.0 错误地填充了使用 Apache Spark 生成的 Parquet 文件元数据中的构建哈希。此问题可能会导致解析由 Amazon EMR on EKS 6.8.0 生成的 Parquet 文件中的元数据版本字符串的工具失败。

已知问题

  • 如果您使用适用于 Apache Spark 的 Amazon Redshift 集成,并且具有 Parquet 格式的时间、timetz、时间戳或 timestamptz(精度为微秒),连接器会将时间值舍入为最接近的毫秒值。解决方法是使用文本卸载格式 unload_s3_format 参数。