本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
选择合适的存储空间
配置集群的实例类型和容量。核心和任务节点需要处理和计算能力,但只有核心节点存储数据。为您的核心节点选择最具成本效益的存储类型。
使用 Amazon EMR 处理大量数据时,您可以通过多种方式从 Amazon S3 移动数据。最佳选择取决于您的工作量。以下各节提供了在决定哪种存储类型最适合您的时需要考虑的一些要点。
Hadoop 分布式文件系统
Hadoop 分布式文件系统 (HDFS) 是一款适用于 Hadoop 的分布式、可扩展和便携式文件系统。HDFS 的一项优势是管理集群的 Hadoop 集群节点与管理单一步骤的 Hadoop 集群节点之间的数据感知。
何时在 Amazon EMR 中使用 HDFS
当您对相同的数据集或磁盘 I/O 密集型工作负载进行迭代读取时,可以使用 HDFS 来缓存中间结果,也可以使用 HDFS 作为热存储来处理数据。HDFS 是临时性的,这意味着它会在实例终止时被回收。
EMR 文件系统
EMR 文件系统 (EMRFS) 是 HDFS 的实现,亚马逊 EMR 集群通常使用它来直接读取和写入来自亚马逊 EMR 的常规文件到 Amazon S3。
当您在每次运行中读取一次数据集时,可以使用 EMRFS。EMRFS 将存储与计算分离,因此您无需专门配置核心节点来存储数据,也不需要为 HDFS 中的数据复制付费。这样可以降低成本,并且可以为多个集群提供数据。您还可以在关闭集群后保留数据。