ステップ 2: Amazon EMR クラスターを作成する
COPY コマンドでは、Amazon EMR の Hadoop Distributed File System (HDFS) のファイルからデータをロードします。Amazon EMR クラスターを作成する場合には、クラスターの HDFS にデータファイルを出力するようにクラスターを設定する必要があります。
Amazon EMR クラスターを作成するには
-
Amazon Redshift クラスターと同じ AWS リージョンに Amazon EMR クラスターを作成します。
Amazon Redshift クラスターが VPC にある場合、Amazon EMR クラスターも同じ VPC グループにある必要があります。Amazon Redshift クラスターで EC2-Classic モードを使用する (つまり、そのクラスターが VPC にない) 場合は、Amazon EMR クラスターでも EC2 Classic モードを使用する必要があります。詳細については、Amazon Redshift Cluster Management Guide の「Virtual Private Cloud (VPC) でクラスターを管理する」を参照してください。
-
クラスターの HDFS にデータファイルを出力するようにクラスターを設定します。HDFS ファイル名にアスタリスク (*) と疑問符 (?) は使用できません。
重要
ファイル名にアスタリスク (*) と疑問符 (?) は使用できません。).
-
Amazon EMR クラスター設定の [Auto-terminate] オプションで [No] を指定すると、COPY コマンドの実行中にクラスターが使用可能なままになります。
重要
COPY が完了する前にデータ ファイルのいずれかが変更または削除されると、予期しない結果を招いたり、COPY 操作が失敗したりする可能性があります。
-
クラスター ID およびマスターパブリック DNS (クラスターをホストする Amazon EC2 インスタンスのエンドポイント) を書き留めておいてください。この情報は、後のステップで使用します。