COPY de formatos de dados colunar
COPY pode carregar dados do Amazon S3 nos seguintes formatos colunares:
-
ORC
-
Parquet
Para obter exemplos do uso de COPY a partir de formatos de dados colunares, consulte Exemplos de COPY.
O comando COPY aceita dados formatados colunares com as seguintes considerações:
-
O bucket da Amazon S3 deve estar na mesma região da AWS que o banco de dados do Amazon Redshift.
-
Para acessar seus dados do Amazon S3 por meio de um endpoint da VPC, configure o acesso usando políticas e perfis do IAM conforme descrito em “Usar o Amazon Redshift Spectrum com roteamento aprimorado da VPC” no Guia de gerenciamento de clusters do Amazon Redshift.
-
COPY não aplicará automaticamente as codificações de compactação.
-
Apenas os parâmetros COPY a seguir são aceitos:
-
ACCEPTINVCHARS ao copiar de um arquivo ORC ou Parquet.
-
-
Se COPY encontrar um erro ao carregar, o comando falhará. ACCEPTANYDATE e MAXERROR não são compatíveis com tipos de dados colunares.
Mensagens de erro são enviadas para o cliente SQL. Alguns erros são registrados em log em STL_LOAD_ERRORS e STL_ERROR.
-
COPY insere valores nas colunas da tabela de destino na mesma ordem das colunas ocorridas nos arquivos de dados colunares. O número de colunas na tabela de destino e o número de colunas no arquivo de dados devem combinar.
-
Se o arquivo especificado para a operação COPY incluir uma das seguintes extensões, os dados serão descompactados sem a necessidade de adicionar nenhum parâmetro:
.gz
.snappy
.bz2
COPY dos formatos de arquivo Parquet e ORC usa o Redshift Spectrum e o acesso de bucket. Para usar COPY para esses formatos, verifique se não há políticas do IAM bloqueando o uso de URLs pré-assinados do Amazon S3. Os URLs pré-assinados gerados pelo Amazon Redshift são válidos por uma hora para que o Amazon Redshift tenha tempo suficiente para carregar todos os arquivos do bucket do Amazon S3. Um URL pré-assinado exclusivo é gerado para cada arquivo verificado pelo comando COPY com base em formatos de dados colunares. Para políticas de bucket que incluem uma ação
s3:signatureAge
, o valor deve ser definido como pelo menos 3.600.000 milissegundos. Para obter mais informações, consulte Usar o Amazon Redshift Spectrum com o roteamento de VPC aprimorado.