本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
步驟 2:建立 Amazon EMR 叢集。
COPY 命令會從 Amazon EMR Hadoop 分散式檔案系統 (HDFS) 上的檔案載入資料。建立 Amazon EMR 叢集時,請設定叢集以輸出資料檔案至叢集的 HDFS。
建立 Amazon EMR 叢集
-
在與 Amazon 紅移叢集相同的 AWS 區域中建立亞馬遜 EMR 叢集。
如果 Amazon Redshift 叢集位於 VPC 中,Amazon EMR 叢集必須位在相同的 VPC 群組。如果 Amazon Redshift 叢集使用 EC2-Classic 模式 (亦即,不在 VPC 中),Amazon EMR 叢集也必須使用 EC2-Classic 模式。如需詳細資訊,請參閱《Amazon Redshift 管理指南》中的在虛擬私有雲端 (VPC) 中管理叢集。
-
設定叢集以將資料檔案輸出至叢集的 HDFS。HDFS 檔案名稱不能包括星號 (*) 或問號 (?)。
重要
檔案名稱不能包括星號 (*) 或問號 (?)。
-
針對 Amazon EMR 叢集組態中的自動終止選項指定否,以便叢集在 COPY 命令執行時保持可用狀態。
重要
如果 COPY 完成之前有任何資料檔案變更或刪除,可能會發生非預期的結果,COPY 操作也可能失敗。
-
請記下叢集 ID 和主要公有 DNS (主控叢集的 Amazon EC2 執行個體端點)。您將在稍後的步驟中使用該資訊。