为您的 Amazon EMR 集群选择硬件

Amazon Web Samatar 的 Sayde Aguilar 和 Amazon Web Services 的迭戈·瓦伦西亚 ()AWS

2023 年 8 月（文档历史记录）

Amazon EMR 是一款用于大数据处理的工具。它使用开源软件，特别是 Apache Spark 和 Apache Hudi 等 Apache 工具。此外，它还为配置和使用低成本 pay-as-you-go模型提供了多种选项。

本指南介绍了如何基于这种弹性设计您的 Amazon EMR 集群，并提供了选择硬件时应遵循的最佳实践。

概览

亚马逊 EMR 是使用 Apache Hadoop 构建的 MapReduce，Apache Hadoop 是一个用于处理大量数据的框架。Hadoop 使用并行逻辑同时 MapReduce 处理分布式集群中的数据，这意味着每个进程都有自己的处理器。亚马逊 EMR 使用在亚马逊弹性计算云 (亚马逊) 上构造的 Hadoop 虚拟服务器集群。 EC2这意味着所有的并行进程都是在运行在 Amazon Web Services (AWS) 上的独立计算机上进行的。

Hadoop 集群是一种特定类型的计算集群，用于使用并行或分布式环境处理大量非结构化数据。Hadoop 集群的一个关键特征是它具有高度的可扩展性，并且可以配置为加速数据处理。可扩展性是通过添加或移除节点来增加或减少吞吐量来实现的。在 Hadoop 集群上，每条数据都是在集群节点之间复制的，因此如果节点出现故障，丢失的数据几乎为零。

在 Amazon EMR 上，弹性是指动态调整大小的能力。您可以自动扩展集群并根据需要进行任何更改。您不必依赖最初的硬件设计。

本指南介绍了如何基于这种弹性设计您的 Amazon EMR 集群，并提供了选择硬件时应遵循的最佳实践。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

集群配置