COPY do Amazon EMR
Você pode usar o comando COPY para carregar dados em paralelo de um cluster do Amazon EMR configurado para gravar arquivos de texto no Hadoop Distributed File System (HDFS) do cluster na forma de arquivos de largura fixa, delimitados por caractere, CSV, formatados em JSON ou Avro.
Sintaxe
FROM 'emr://emr_cluster_id/hdfs_filepath' authorization [ optional_parameters ]
Exemplo
O exemplo a seguir carrega dados como um cluster do Amazon EMR.
copy sales from 'emr://j-SAMPLE2B500FC/myoutput/part-*' iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';
Parâmetros
- FROM
-
A origem dos dados a serem carregados.
- 'emr://emr_cluster_id/hdfs_file_path'
-
O identificador exclusivo do cluster do Amazon EMR e o caminho de arquivo HDFS que referencia os arquivos de dados para o comando COPY. Os nomes de arquivos de dados HDFS não devem conter o asterisco de caracteres curinga (*) e o ponto de interrogação (?).
nota
O cluster do Amazon EMR deve continuar em execução enquanto a operação COPY é concluída. Se alguns dos arquivos de dados HDFS forem alterados ou excluídos antes da operação COPY ser concluída, você poderá ter resultados inesperados, ou a operação COPY poderá falhar.
Você pode usar os caracteres curinga asterisco (*) e ponto de interrogação (?) como parte do argumento hdfs_file_path para especificar o carregamento de vários arquivos. Por exemplo,
'emr://j-SAMPLE2B500FC/myoutput/part*'
identifica os arquivospart-0000
,part-0001
e assim por diante. Se não contiver caracteres curinga, o caminho do arquivo será tratado como uma string literal. Se você especificar somente um nome de pasta, COPY tentará carregar todos os arquivos na pasta.Importante
Se você usar caracteres curinga ou somente o nome da pasta, verifique se nenhum arquivo indesejado será cobrado. Por exemplo, alguns processos podem gravar um arquivo de log na pasta de saída.
Para obter mais informações, consulte Carregar dados do Amazon EMR.
- autorização
-
O comando COPY precisa de autorização para acessar dados em outro recurso da AWS, inclusive em Amazon S3, Amazon EMR, Amazon DynamoDB e Amazon EC2. É possível conceder essa autorização referenciando um perfil do AWS Identity and Access Management (IAM) anexado ao cluster (controle de acesso baseado em perfil) ou fornecendo as credenciais de acesso de um usuário (controle de acesso baseado em chave). Para mais segurança e a flexibilidade, recomendamos usar o controle de acesso baseado em função do IAM. Para obter mais informações, consulte Parâmetros de autorização.
Parâmetros compatíveis
Você também pode especificar os seguintes parâmetros com COPY do Amazon EMR:
Parâmetros incompatíveis
Você não pode usar os seguintes parâmetros com COPY do Amazon EMR:
-
ENCRYPTED
-
MANIFEST
-
REGION
-
READRATIO
-
SSH