本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
为您的 Amazon EMR 集群选择硬件
亚马逊网络服务的赛义德·阿吉拉尔、阿米恩·萨马塔尔和迭戈·瓦伦西亚(AWS)
2023 年 8 月(文档历史)
Amazon EMR 是一种用于大数据处理的工具。它使用开源软件,特别是 Apache Spark 和 Apache Hudi 等 Apache 工具。此外,它还提供了多种配置和使用低成本的选项,pay-as-you-go模型。
本指南介绍如何基于该弹性设计您的 Amazon EMR 集群,并提供了选择硬件时应遵循的最佳实践。
概览
亚马逊 EMR 是使用 Apache Hadoop 构建的MapReduce,一个用于处理大量数据的框架。HadoopMapReduce使用并行逻辑同时处理分布式集群中的数据,这意味着每个进程都有自己的处理器。亚马逊 EMR 使用基于亚马逊弹性计算云 (Amazon EC2) 的虚拟服务器的 Hadoop 集群。这意味着所有并行进程都是在运行在亚马逊网络服务上的独立计算机上进行的(AWS)。
Hadoop 集群是一种特定类型的计算集群,用于使用并行或分布式环境处理大量非结构化数据。Hadoop 集群的一个关键特征是它具有高度的可扩展性,可以配置为提高数据处理的速度。可扩展性是通过添加或删除节点来增加或减少吞吐量来实现的。在 Hadoop 集群上,每条数据都是在群集节点之间复制的,因此如果节点出现故障,丢失的数据几乎为零。
在亚马逊 EMR 上,弹性指的是动态调整大小的能力。您可以自动扩展集群并根据需要进行任何更改。您不必依赖最初的硬件设计。
本指南介绍如何基于该弹性设计您的 Amazon EMR 集群,并提供了选择硬件时应遵循的最佳实践。