Copiar dados para o Amazon Redshift usando a linha de comando - AWS Data Pipeline

Copiar dados para o Amazon Redshift usando a linha de comando

Este tutorial demonstra como copiar dados do Amazon S3 para o Amazon Redshift. Você pode criar uma nova tabela no Amazon Redshift e, em seguida, usar o AWS Data Pipeline para transferir dados para ela a partir de um bucket público do Amazon S3, que contenha exemplos de dados de entrada no formato CSV. Os logs são salvos em um bucket do Amazon S3 que você possui.

O Amazon S3 é um web service que permite o armazenamento de dados na nuvem. Para obter mais detalhes, consulte o Manual do usuário do Amazon Simple Storage Service. O Amazon Redshift é um serviço de data warehouse na nuvem. Para obter mais informações, consulte o Guia de gerenciamento do Amazon Redshift.

Pré-requisitos

Antes de começar, é necessário concluir as seguintes etapas:

  1. Instale e configure a Interface da linha de comando (CLI). Para obter mais informações, consulte Como acessar o AWS Data Pipeline.

  2. Certifique-se de que os perfis do IAM chamados DataPipelineDefaultRole e DataPipelineDefaultResourceRole existem. O console do AWS Data Pipeline cria essas funções para você automaticamente. Se você não usou o console do AWS Data Pipeline pelo menos uma vez, deverá criar essas funções manualmente. Para obter mais informações, consulte Funções do IAM para o AWS Data Pipeline.

  3. Configure o comando COPY no Amazon Redshift, pois você precisará ter essas mesmas opções funcionando ao fazer a cópia no AWS Data Pipeline. Para obter mais informações, consulte Antes de começar: configurar as opções COPY e carregar dados.

  4. Configure um banco de dados do Amazon Redshift. Para obter mais informações, consulte Configurar pipeline, criar um grupo de segurança e criar um cluster do Amazon Redshift .