配置输出位置 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置输出位置

Amazon EMR 集群最常见的输出格式是压缩或未压缩的文本文件。通常,把这些文件写入 Amazon S3 存储桶。启动该集群前,必须先创建此存储桶。启动集群时,指定 S3 存储桶作为输出位置。

有关更多信息,请参阅以下主题:

创建和配置 Amazon S3 存储桶

Amazon EMR (Amazon EMR) 使用 Amazon S3 来存储输入数据、日志文件和输出数据。Amazon S3 将这些存储位置称为存储桶。存储桶具有某些限制以符合 Amazon S3 和 DNS 要求。有关更多信息,请转至存储桶限制中的Amazon Simple Storage Service 开发者指南

要创建 Amazon S3 存储桶,请按照创建存储桶页面中的Amazon Simple Storage Service 开发者指南

注意

如果您在创建存储桶向导时,只启用存储桶访问日志,不会启用群集日志。

注意

有关指定特定于区域的存储桶的更多信息,请参阅存储桶和区域中的Amazon Simple Storage Service 开发人员指南AWS 开发工具包的可用区域终端节点

在创建存储桶后,您可以针对其设置适当的权限。通常情况下,您可以给自己(所有者)授予读取和写入权限以及已验证用户授予读取访问权限。请参阅存储桶策略和用户策略,了解说明。

在创建集群之前,所需的 Amazon S3 存储桶必须存在。您必须将集群中引用的所有必要的脚本或数据上传到 Amazon S3。下表介绍了示例数据、脚本和日志文件位置。

信息 Amazon S3 上的示例位置
脚本或程序 s3://DOC-EXAMPLE-BUCKET1/script/MapperScript.py
日志文件 s3://DOC-EXAMPLE-BUCKET1/logs
输入数据 s3://DOC-EXAMPLE-BUCKET1/input
输出数据 s3://DOC-EXAMPLE-BUCKET1/output