ステップ 6: COPY コマンドを実行してデータをロードする
COPY コマンドを実行して Amazon EMR クラスターに接続し、Amazon Redshift テーブルにデータをロードします。Amazon EMR クラスターは、COPY コマンドが完了するまで稼動している必要があります。例えば、クラスターに対して自動終了は設定しないようにしてください。
重要
COPY が完了する前にデータ ファイルのいずれかが変更または削除されると、予期しない結果を招いたり、COPY 操作が失敗したりする可能性があります。
COPY コマンドでは、Amazon EMR クラスター ID と、HDFS のファイルパスおよびファイル名を指定します。
copy sales from 'emr://myemrclusterid/myoutput/part*' credentials iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';
ファイル名の引数にはワイルドカード文字としてアスタリスク (*
) および疑問符 (?
) を使用できます。たとえば、part*
であれば、part-0000
、part-0001
などのファイルがロードされます。COPY コマンドでフォルダー名のみを指定した場合には、フォルダー内のすべてのファイルがロードされます。
重要
ワイルドカード文字を使用する場合や、フォルダー名のみを指定する場合には、フォルダーを確認して不要なファイルがロードされることのないようにしてください。不要なファイルがロードされると、COPY コマンドが失敗します。例えば、一部のプロセスでは出力フォルダにログファイルが書き込まれることがあります。