Tutorial: Carregar dados do Amazon S3 - Amazon Redshift

Tutorial: Carregar dados do Amazon S3

Neste tutorial, você percorre o processo de carregamento de dados nas tabelas de banco de dados do Amazon Redshift a partir de arquivos de dados em um bucket do Amazon S3 do início ao fim.

Neste tutorial, você faz o seguinte:

  • Baixa os arquivos de dados que usam formatos separados por vírgulas (CSV), delimitado por caracteres e de largura fixa.

  • Cria um bucket do Amazon S3 e carrega os arquivos de dados para o bucket.

  • Inicia um cluster do Amazon Redshift e cria tabelas de banco de dados.

  • Usa os comandos COPY para carregar as tabelas dos arquivos de dados no Amazon S3.

  • Soluciona erros de carga e modifica os comandos COPY para corrigir os erros.

Tempo estimado: 60 minutos

Custo calculado: 1,00 USD por hora pelo cluster

Pré-requisitos

Você precisa dos seguintes pré-requisitos:

  • Uma conta da AWS para iniciar um cluster do Amazon Redshift e criar um bucket no Amazon S3.

  • Suas credenciais da AWS (função do IAM) para carregar dados de teste do Amazon S3. Se precisar de um novo perfil do IAM, acesse Criar perfis do IAM.

  • Um cliente SQL, como o editor de consulta do console do Amazon Redshift.

Este tutorial foi projetado de maneira que possa ser seguido sozinho. Além deste tutorial, recomendamos concluir os seguintes tutoriais para obter uma compreensão mais completa de como projetar e usar bancos de dados do Amazon Redshift:

Visão geral

Você pode adicionar dados às tabelas do Amazon Redshift usando um comando INSERT ou um comando COPY. Na escala e na velocidade de um data warehouse do Amazon Redshift, o comando COPY é muitas vezes mais rápido e eficiente do que os comandos INSERT.

O comando COPY usa a arquitetura de processamento massivamente paralelo (MPP) do Amazon Redshift para ler e carregar dados em paralelo de várias fontes de dados. Você pode carregar arquivos de dados no Amazon S3, Amazon EMR ou qualquer host remoto acessível por meio de uma conexão Secure Shell (SSH). Ou você pode carregar diretamente de uma tabela do Amazon DynamoDB.

Neste tutorial, você usa o comando COPY para carregar dados do Amazon S3. Muitos dos princípios apresentados aqui também se aplicam ao carregamento de outras fontes de dados.

Para saber mais sobre como usar o comando COPY, consulte estes recursos:

Etapas