步驟 2:建立 Amazon EMR 叢集 - Amazon Redshift

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

步驟 2:建立 Amazon EMR 叢集

COPY 命令會從 Amazon EMR Hadoop 分散式檔案系統 (HDFS) 上的檔案載入資料。當您創建 Amazon EMR 叢集時,請設定叢集以將資料檔案輸出至叢集的 HDFS。

若要建立 Amazon EMR 叢集

  1. 在同一AWS地區作為 Amazon Redshift 叢集。

    如果 Amazon Redshift 叢集位於 VPC 中,則 Amazon EMR 叢集必須位在相同的 VPC 組。如果 Amazon Redshift 叢集使用 EC2-Classic 模式 (也就是説,它不在 VPC 中),Amazon EMR 叢集也必須使用 EC2-Classic 模式。如需詳細資訊,請參閱「」管理 Virtual Private Cloud (VPC) 中的叢集中的Amazon Redshift 叢集管理指南

  2. 設定叢集以將資料檔案輸出至叢集的 HDFS。HDFS 檔案名稱不能包括星號 (*) 或問號 (?)。

    重要

    檔案名稱不能包括星號 (*) 或問號 (?)。

  3. 指定(針對)自動終止選項,以便在 COPY 命令運行時集羣保持可用狀態。

    重要

    如果 COPY 完成之前有任何資料檔案變更或刪除,可能會發生非預期的結果,COPY 操作也可能失敗。

  4. 請記下叢集 ID 和主要公有 DNS (主控叢集的 Amazon EC2 執行個體端點)。您將在稍後的步驟中使用該資訊。