步驟 2:建立 Amazon EMR 叢集。 - Amazon Redshift

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

步驟 2:建立 Amazon EMR 叢集。

COPY 命令會從 Amazon EMR Hadoop 分散式檔案系統 (HDFS) 上的檔案載入資料。建立 Amazon EMR 叢集時,請設定叢集以輸出資料檔案至叢集的 HDFS。

建立 Amazon EMR 叢集
  1. 在與 Amazon 紅移叢集相同的 AWS 區域中建立亞馬遜 EMR 叢集。

    如果 Amazon Redshift 叢集位於 VPC 中,Amazon EMR 叢集必須位在相同的 VPC 群組。如果 Amazon Redshift 叢集使用 EC2-Classic 模式 (亦即,不在 VPC 中),Amazon EMR 叢集也必須使用 EC2-Classic 模式。如需詳細資訊,請參閱《Amazon Redshift 管理指南》中的在虛擬私有雲端 (VPC) 中管理叢集

  2. 設定叢集以將資料檔案輸出至叢集的 HDFS。HDFS 檔案名稱不能包括星號 (*) 或問號 (?)。

    重要

    檔案名稱不能包括星號 (*) 或問號 (?)。

  3. 針對 Amazon EMR 叢集組態中的自動終止選項指定,以便叢集在 COPY 命令執行時保持可用狀態。

    重要

    如果 COPY 完成之前有任何資料檔案變更或刪除,可能會發生非預期的結果,COPY 操作也可能失敗。

  4. 請記下叢集 ID 和主要公有 DNS (主控叢集的 Amazon EC2 執行個體端點)。您將在稍後的步驟中使用該資訊。