本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
选择合适的存储空间
配置集群的实例类型和容量。核心和任务节点需要处理和计算能力,但只有核心节点存储数据。为您的核心节点选择最具成本效益的存储类型。
使用 Amazon EMR 处理大量数据时,您可以通过多种方式从 Amazon S3 中移动数据。最佳选择取决于您的工作量。以下各节提供了在决定哪种存储类型适合您的正确选择时需要考虑的一些关键点。
Hadoop Distribute
Hadoop Distributed File System(HDFS)是一种分布式、可扩展的文件系统,供 Hadoop 使用。HDFS 的一项优势是管理集群的 Hadoop 集群节点与管理单一步骤的 Hadoop 集群节点之间的数据感知。
何时在 Amazon EMR 中使用 HDFS
当您对相同的数据集或磁盘输入/输出密集型工作负载进行迭代读取时,可以使用 HDFS 缓存中间结果和作为处理数据的热存储。HDFS 是暂时性的,这意味着它会在实例终止时被回收。
EMR 文件系统
EMR 文件系统(EMRFS)是 HDFS 的实现,Amazon EMR 集群将其用于直接从 Amazon EMR 读取常规文件并将其写入 Amazon S3。
在每次运行中读取一次数据集时,可以使用 EMRFS。EMRFS 将存储与计算分离,因此您无需专门配置核心节点来存储数据,也无需为 HDFS 中的数据复制付费。这样可以降低成本,并为多个集群提供数据的可用性。您还有一个优势,那就是在关闭集群后保留数据。