Paso 6: Ejecutar el comando COPY para cargar los datos - Amazon Redshift

Paso 6: Ejecutar el comando COPY para cargar los datos

Ejecute un comando COPY para conectarse al clúster de Amazon EMR y cargar los datos en una tabla de Amazon Redshift. El clúster de Amazon EMR debe seguir ejecutándose hasta que se complete la ejecución del comando COPY. Por ejemplo, no configure el clúster para que se termine automáticamente.

importante

Si se cambia o se elimina cualquiera de los archivos de datos antes de que se complete la operación COPY, se podrían obtener resultados inesperados o la operación COPY podría provocar un error.

En el comando COPY, especifique el ID del clúster de Amazon EMR y el nombre y la ruta del archivo HDFS.

COPY sales FROM 'emr://myemrclusterid/myoutput/part*' CREDENTIALS IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole';

Puede usar los caracteres comodín de asterisco (*) y de signo de interrogación (?) como parte del argumento de nombre del archivo. Por ejemplo, part* carga los archivos part-0000, part-0001 y, así, sucesivamente. Si solo especifica el nombre de una carpeta, COPY prueba cargar todos los archivos que se encuentran en ella.

importante

Si usa caracteres comodín o solo el nombre de la carpeta, controle que no se carguen archivos no deseados o el comando COPY provocará un error. Por ejemplo, algunos procesos podrían escribir un archivo de registro en la carpeta de salida.