Copiar dados para o Amazon Redshift usando a linha de comando

Este tutorial demonstra como copiar dados do Amazon S3 para o Amazon Redshift. Você pode criar uma nova tabela no Amazon Redshift e, em seguida, usar o AWS Data Pipeline para transferir dados para ela a partir de um bucket público do Amazon S3, que contenha exemplos de dados de entrada no formato CSV. Os logs são salvos em um bucket do Amazon S3 que você possui.

O Amazon S3 é um web service que permite o armazenamento de dados na nuvem. Para obter mais detalhes, consulte o Manual do usuário do Amazon Simple Storage Service. O Amazon Redshift é um serviço de data warehouse na nuvem. Para obter mais informações, consulte o Guia de gerenciamento do Amazon Redshift.

Pré-requisitos

Antes de começar, é necessário concluir as seguintes etapas:

Instale e configure a Interface da linha de comando (CLI). Para obter mais informações, consulte Acessando AWS Data Pipeline.
Certifique-se de que as funções do IAM tenham sido nomeadas DataPipelineDefaultRolee DataPipelineDefaultResourceRoleexistam. O AWS Data Pipeline console do cria essas funções para você automaticamente. Se você não usou o AWS Data Pipeline console do pelo menos uma vez, deverá criar essas funções manualmente. Para obter mais informações, consulte Funções do IAM para AWS Data Pipeline.
Configure o comando COPY no Amazon Redshift, pois você precisará ter essas mesmas opções funcionando ao fazer a cópia no AWS Data Pipeline. Para mais informações, consulte Antes de começar: configurar as opções COPY e carregar dados.
Configure um banco de dados do Amazon Redshift. Para obter mais informações, consulte Configurar pipeline, criar um grupo de segurança e criar um cluster do Amazon Redshift .

Tarefas

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Antes de começar: configurar pipeline, segurança e cluster

Definir um pipeline no formato JSON