步骤 2:创建 Amazon EMR 集群 - Amazon Redshift

步骤 2:创建 Amazon EMR 集群

COPY 命令从 Amazon EMR Hadoop Distributed File System (HDFS) 上的文件加载数据。当您创建 Amazon EMR 集群时,请将集群配置为将数据文件输出到集群的 HDFS。

要创建 Amazon EMR 集群
  1. 在与 Amazon Redshift 集群相同的 AWS 区域中创建 Amazon EMR 集群。

    如果 Amazon Redshift 集群在 VPC 中,则 Amazon EMR 集群必须在同一 VPC 组中。如果 Amazon Redshift 集群使用 EC2-Classic 模式(即,它不在 VPC 中),则 Amazon EMR 集群必须也使用 EC2-Classic 模式。有关更多信息,请参阅《Amazon Redshift 管理指南》中的管理 Virtual Private Cloud (VPC) 中的集群

  2. 将集群配置为将数据文件输出到集群的 HDFS。HDFS 文件名不能包括星号 (*) 或问号 (?)。

    重要

    文件名不能包括星号 (*) 或问号 (?)。

  3. 在 Amazon EMR 集群配置中,将自动终止选项指定为,以便集群在 COPY 命令运行时保持可用。

    重要

    如果在 COPY 完成前更改或删除了任何数据文件,则您可能会遇到意外结果,或者 COPY 操作可能失败。

  4. 请记下集群 ID 和主节点公有 DNS(托管集群的 Amazon EC2 实例的端点)。您将在后面的步骤中用到这些信息。