Etapa 6: Executar o comando COPY para carregar os dados
Execute um comando COPY para se conectar ao cluster do Amazon EMR e carregar os dados em uma tabela do Amazon Redshift. O cluster do Amazon EMR deve continuar em execução até que o comando COPY seja concluído. Por exemplo, não configure o encerramento automático do cluster.
Importante
Se um dos arquivos de dados for alterado ou excluído antes de COPY ser concluído, você poderá ter resultados inesperados ou a operação COPY poderá falhar.
No comando COPY, especifique o ID do cluster Amazon EMR e o caminho do arquivo HDFS e o nome do arquivo.
COPY sales FROM 'emr://myemrclusterid/myoutput/part*' CREDENTIALS IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole';
Você pode usar caracteres curinga asterisco ( *
) e ponto de interrogação ( ?
) como parte do argumento do nome do arquivo. Por exemplo, part*
carrega os arquivos part-0000
, part-0001
e assim por diante. Se você especificar somente um nome de pasta, COPY tentará carregar todos os arquivos na pasta.
Importante
Se você usar caracteres curinga ou usar somente o nome da pasta, certifique-se de que nenhum arquivo indesejado seja carregado ou o comando COPY falhará. Por exemplo, alguns processos podem gravar um arquivo de log na pasta de saída.