本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
從 Amazon EMR 載入資料
您可以使用 COPY 命令從 Amazon EMR 叢集 parallel 載入資料,而該叢集設定為以固定寬度檔案、字元分隔檔案、CSV 檔案或 JSON 格式檔案的形式,將文字檔案寫入叢集的 Hadoop 分散式檔案系統 (HDFS)。
從 Amazon EMR 載入資料的流程
本節會逐步引導您完成從 Amazon EMR 叢集載入資料的程序。下列小節提供完成每個步驟所需的詳細資訊。
-
建立 Amazon EMR 叢集和執行 Amazon Redshift COPY 命令的使用者必須具備必要的許可。
-
設定叢集以輸出文字檔案至 Hadoop 分散式檔案系統 (HDFS)。您將需要 Amazon EMR 叢集 ID 和叢集的主要公有 DNS (主控叢集的 Amazon EC2 執行個體端點)。
-
步驟 3:檢索 Amazon Redshift 叢集公有金鑰和叢集節點 IP 地址
公有金鑰可讓 Amazon Redshift 叢集節點與主機建立 SSH 連線。您將使用每個叢集節點的 IP 地址來設定主機安全組,以允許使用這些 IP 地址從您的 Amazon Redshift 叢集存取。
-
步驟 4:將 Amazon Redshift 叢集公有金鑰新增至每個 Amazon EC2 主機的授權金鑰檔案
您可以將 Amazon Redshift 叢集公有金鑰新增至主機的授權金鑰檔案,以便主機識別 Amazon Redshift 叢集並接受 SSH 連線。
-
步驟 5:設定主機以接受所有 Amazon Redshift 叢集的 IP 地址
修改 Amazon EMR 實例的安全組,以新增傳入規則來接受 Amazon Redshift IP 地址。
-
從 Amazon Redshift 資料庫,執行 COPY 命令以將資料載入至 Amazon Redshift 資料表。