ステップ 2: Amazon EMR クラスターを作成する
COPY コマンドでは、Amazon EMR の Hadoop Distributed File System (HDFS) のファイルからデータをロードします。Amazon EMR クラスターを作成する場合には、クラスターの HDFS にデータファイルを出力するようにクラスターを設定する必要があります。
Amazon EMR クラスターを作成するには
-
Amazon Redshift クラスターと同じ AWS リージョンに Amazon EMR クラスターを作成します。
Amazon Redshift クラスターが VPC にある場合、Amazon EMR クラスターも同じ VPC グループにある必要があります。Amazon Redshift クラスターで EC2-Classic モードを使用する (つまり、そのクラスターが VPC にない) 場合は、Amazon EMR クラスターでも EC2 Classic モードを使用する必要があります。詳細については、「Amazon Redshift 管理ガイド」の「仮想プライベートクラウド (VPC) でクラスターを管理する」を参照してください。
-
クラスターの HDFS にデータファイルを出力するようにクラスターを設定します。HDFS ファイル名にアスタリスク (*) と疑問符 (?) は使用できません。
重要
ファイル名にアスタリスク (*) と疑問符 (?) は使用できません。
-
COPY コマンドの実行中もクラスターを継続して使用できるように、Amazon EMR クラスター設定の [Auto-terminate] (自動終了) オプションで [No] (いいえ) を指定します。
重要
COPY が完了する前にデータ ファイルのいずれかが変更または削除されると、予期しない結果を招いたり、COPY 操作が失敗したりする可能性があります。
-
クラスター ID およびメインの公開 DNS (クラスターをホストする Amazon EC2 インスタンスのエンドポイント) を書き留めておいてください。この情報は、後のステップで使用します。