新增功能 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

新增功能

本页介绍了 Amazon EMR 6.x 和 Amazon EMR 5.x 最新发行版中的更改和可用功能。这些发行说明也可在亚马逊 EMR 版本 6.12.0页面和亚马逊 EMR 版本 5.36.1页面,以及每个版本的应用程序版本、组件版本和可用配置分类。

订阅 RSS 源,通过 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss 获取 Amazon EMR 发布说明,以便在新的 Amazon EMR 发行版可用时接收更新。

有关早期发行版的发布说明,请参阅 发布说明的 Amazon EMR 存档

注意

Amazon EMR 发行版现在使用 AWS 签名版本 4(SigV4)对发送到 Amazon S3 的请求进行身份验证。我们建议您使用支持 SigV4 的 Amazon EMR 发行版,这样您可以访问新的 S3 存储桶,避免工作负载中断。有关更多信息和支持 SigV4 的 Amazon EMR 发行版列表,请参阅 Amazon EMR 和 AWS 签名版本 4

亚马逊 EMR 6.12.0(6.x 系列的最新版本)

从初始发布日期的第一个区域开始,新的 Amazon EMR 发行版将在几天内陆续在不同区域提供。在此期间,您所在区域可能无法提供最新发行版。

以下发行说明包含亚马逊 EMR 6.12.0 版本的信息。更改与 6.11.0 有关。有关发布时间表的信息,请参阅更改日志

新功能
  • Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.

  • 亚马逊 EMR 发布 6.12.0 及更高版本支持 LDAP 与 Apache Livy、Apache Hive 集成 HiveServer2 (HS2)、Trino、Presto 和 Hue。你还可以在使用 6.12.0 或更高版本的 EMR 集群上安装 Apache Spark 和 Apache Hadoop,并将它们配置为使用 LDAP。有关更多信息,请参阅使用活动目录或 LDAP 服务器通过亚马逊 EMR 进行身份验证

更改、增强功能和解决的问题
  • 亚马逊 EMR 6.12.0 及更高版本为 Flink 提供 Java 11 运行时支持。有关更多信息,请参阅将 Flink 配置为使用 Java 11 运行

  • 默认情况下,亚马逊 EMR 6.12.0 支持所有搭载 Amazon Corretto 8 的应用程序,但 Trino 除外。对于 Trino,从亚马逊 EMR 版本 6.9.0 开始,亚马逊 EMR 默认支持 Amazon Corretto 17。亚马逊 EMR 还支持某些带有亚马逊 Corretto 11 和 17 的应用程序。下表列出了这些应用程序。如果要更改集群上的默认 JVM,请按照中的说明进行操作配置应用程序来使用特定 Java 虚拟机针对集群上运行的每个应用程序。一个集群只能使用一个 Java 运行时版本。Amazon EMR 不支持在同一集群的不同运行时版本上运行不同的节点或应用程序。

    虽然亚马逊 EMR 在 Apache Spark、Apache Hadoop 和 Apache Hive 上同时支持 Amazon Corretto 11 和 17,但当你使用这些版本的 Corretto 时,某些工作负载的性能可能会下降。我们建议您在更改默认值之前先测试工作负载。

    亚马逊 EMR 6.12 中应用程序的默认 Java 版本
    应用程序 Java/Amazon Corretto 版本(默认为粗体)
    Delta 17、11,8
    Flink 11,8
    Ganglia 8
    HBase 11,8
    HCatalog 17、11,8
    Hadoop 17、11,8
    Hive 17、11,8
    Hudi 17、11,8
    Iceberg 17、11,8
    Livy 17、11,8
    Oozie 17、11,8
    Phoenix 8
    PrestoDB 8
    Spark 17、11,8
    火花急流 17、11,8
    Sqoop 8
    Tez 17、11,8
    Trino 17
    Zeppelin 8
    Pig 8
    Zookeeper 8
  • 6.12.0 版本为运行 Presto 或 Trino 的 EMR 集群的集群扩展工作流程添加了新的重试机制。这一改进降低了由于单个调整大小操作失败而导致集群大小调整无限期停滞的风险。它还可以提高集群利用率,因为您的集群可以更快地向上和向下扩展。

  • 6.12.0 版本修复了一个问题,即当处于正常停用状态的核心节点在完全停用之前出于任何原因变得不健康时,集群缩容操作可能会停滞不前。

  • 6.12.0 版本改进了集群缩小逻辑,因此您的集群不会尝试将核心节点缩小到低于集群 HDFS 复制因子设置的范围。这符合您的数据冗余要求,并减少了扩展操作可能停滞的机会。

  • 6.12.0 版本通过提高记录实例状态变化的速度,提高了 Amazon EMR 运行状况监控服务的性能和效率。这一改进降低了运行多个自定义客户端工具或第三方应用程序的群集节点性能下降的机会。

  • 6.12.0 版本提高了 Amazon EMR 的集群日志管理守护程序的性能。因此,对于以高并发度运行步骤的 EMR 集群,性能下降的可能性较小。

  • 在 Amazon EMR 6.12.0 版本中,日志管理守护程序已升级,可以识别所有正在使用的日志以及本地实例存储上的打开文件句柄以及相关进程。此次升级可确保 Amazon EMR 在日志存档到 Amazon S3 后正确删除文件并回收存储空间。

  • 6.12.0 版本包括日志管理守护程序增强功能,可删除本地群集文件系统中空的、未使用的步骤目录。过多的空目录会降低 Amazon EMR 守护程序的性能并导致磁盘过度使用。

  • 6.12.0 版本支持 YARN Timeline Server 日志的日志轮换。这样可以最大限度地减少磁盘过度使用情况,特别是对于长时间运行的集群。

  • 在亚马逊 EMR 6.10.0 及更高版本中,默认根卷大小已增加到 15 GB。早期版本的默认根卷大小为 10 GB。

  • 当你使用启动集群时最新的补丁版本在亚马逊 EMR 5.36 或更高版本或 6.6 或更高版本中,亚马逊 EMR 使用最新的亚马逊 Linux 2 版本作为默认亚马逊 EMR AMI。有关更多信息,请参阅使用亚马逊 EMR 的默认亚马逊 Linux AMI

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20230727.0 4.14.320 2023年8月14日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230719.0 4.14.320 2023 年 8 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230628.0 4.14.318 2023年7月12日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)

亚马逊 EMR 5.36.1(5.x 系列的最新版本)

从初始发布日期的第一个区域开始,新的 Amazon EMR 发行版将在几天内陆续在不同区域提供。在此期间,您所在区域可能无法提供最新发行版。

以下发行说明包含亚马逊 EMR 版本 5.36.1 的信息。变化是相对于 5.36.0 的。有关发布时间表的信息,请参阅更改日志

更改、增强功能和解决的问题
  • 亚马逊 EMR 版本 5.36.1 增加了对集群缩小期间将日志存档到 Amazon S3 的支持。在之前的 5.x 版本中,您只能在集群终止期间将日志文件存档到 Amazon S3。这一改进可确保集群上生成的日志文件即使在节点终止后仍保留在 Amazon S3 上。有关更多信息,请参阅配置集群日志记录和调试

  • 5.36.1 版本改进了集群日志管理守护程序,可以监控 EMR 集群中的其他日志文件夹。这一改进最大限度地减少了磁盘过度使用情况。

  • 5.36.1 版本在集群日志管理守护程序停止后会自动重启该守护程序。这一改进降低了由于磁盘过度使用而导致节点出现运行状况不佳的风险。

  • 5.36.1 版本修复了主节点上的 Amazon EMR 守护程序会维护集群中已终止实例的过时元数据的问题。维护陈旧的数据可能会导致集群上的 CPU 和内存使用量无限增长,并最终导致集群故障。

  • 对于使用多个主节点启动的集群,5.36.1 版本修复了一个问题,即其中一个主节点上的 Amazon EC2 硬件故障可能会导致第二个主节点出现故障并导致集群不稳定。

  • 对于配置了传输中加密的集群,托管扩展现已启用Spark 随机播放数据意识到。Spark shuffle 数据是 Spark 跨分区重新分配以执行特定操作的数据。在缩减期间,托管扩展会忽略带有随机播放数据的实例。这样可以防止工作重试和重新计算,因为这会给价格和性能带来高昂的代价。有关随机排序操作的更多信息,请参阅 Spark 编程指南

  • 当你使用启动集群时最新的补丁版本在亚马逊 EMR 5.36 或更高版本或 6.6 或更高版本中,亚马逊 EMR 使用最新的亚马逊 Linux 2 版本作为默认亚马逊 EMR AMI。有关更多信息,请参阅使用亚马逊 EMR 的默认亚马逊 Linux AMI

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20230727.0 4.14.320 2023年8月14日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230719.0 4.14.320 2023 年 8 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230628.0 4.14.318 2023年7月12日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(香港)大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230612.0 4.14.314 2023 年 6 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(香港)大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230404.1 4.14.311 2023 年 4 月 18 日

    美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(大阪)、亚太地区(大阪)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(大阪)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)

Amazon EMR 和 AWS 签名版本 4

Amazon EMR 发行版现在使用 AWS 签名版本 4(SigV4)对发送到 Amazon S3 的请求进行身份验证。2020 年 6 月 24 日之后在 Amazon S3 中创建的存储桶不支持由签名版本 2(SigV2)签名的请求。2020 年 6 月 24 日或之前创建的存储桶将继续支持 SigV2。建议您迁移到支持 SigV4 的 Amazon EMR 发行版,这样您可以访问新的 S3 存储桶,避免工作负载中断。

如果您使用的是 Amazon EMR 中包含的应用程序,例如 Apache Spark、Apache Hive 和 Presto,则无需更改应用程序代码即可使用 SigV4。如果您使用的是 Amazon EMR 中未包含的自定义应用程序,则可能需要更新代码才能使用 SigV4。有关更多信息,请参阅《Amazon S3 用户指南》中的从签名版本 2 转向签名版本 4

以下 Amazon EMR 发行版支持 SigV4:emr-4.7.4、emr-4.8.5、emr-4.9.6、emr-4.10.1、emr-5.1.1、emr-5.2.3、emr-5.3.2、emr-5.4.1、emr-5.5.4、emr-5.6.1、emr-5.7.1、emr-5.8.3、emr-5.9.1、emr-5.10.1、emr-5.11.4、emr-5.12.3、emr-5.13.1、emr-5.14.2、emr-5.15.1、emr-5.16.1、emr-5.17.2、emr-5.18.1、emr-5.19.1、emr-5.20.1、and emr-5.21.2、and emr-5.22.0 及更高版本。