Etapa 4: Carregar dados do Amazon S3 para o Amazon Redshift - Amazon Redshift

Etapa 4: Carregar dados do Amazon S3 para o Amazon Redshift

Depois de criar o cluster, você poderá carregar dados do Amazon S3 nas tabelas do banco de dados. Há várias maneiras de carregar dados do Amazon S3.

  • É possível usar um cliente SQL para executar o comando SQL CREATE TABLE e criar uma tabela no banco de dados e, depois, usar o comando SQL COPY para carregar dados do Amazon S3. O Editor de Consultas do Amazon Redshift v2 é um cliente SQL.

  • É possível usar o assistente de carregamento do Editor de Consultas do Amazon Redshift v2.

Este tutorial primeiro demonstra como usar o Editor de Consultas do Amazon Redshift v2 para executar comandos SQL para criar tabelas (CREATE) e copiar dados (COPY). Inicie o Editor de Consultas v2 no painel de navegação do console do Amazon Redshift. No Editor de Consultas v2, crie uma conexão com o cluster examplecluster e o banco de dados denominado dev com o usuário administrador awsuser. Para este tutorial, escolha Credenciais temporárias usando um nome de usuário do banco de dados ao criar a conexão. Para ter detalhes sobre como usar o Editor de Consultas do Amazon Redshift, v2, consulte Conectar-se a um banco de dados do Amazon Redshift no Guia de gerenciamento do Amazon Redshift.

Carregar dados do Amazon S3 usando comandos SQL

No painel de edição de consultas do Editor de Consultas v2, confirme que você já se conectou com o cluster examplecluster e o banco de dados dev. Depois, crie tabelas no banco de dados e carregue dados nelas. Para este tutorial, os dados carregados estão disponíveis em um bucket do Amazon S3, acessível por meio de várias Regiões da AWS.

O procedimento a seguir cria tabelas e carrega dados de um bucket público do Amazon S3.

Use o Editor de Consultas do Amazon Redshift v2 para copiar e executar a declaração de criação de tabelas e criar uma tabela no esquema public do banco de dados dev. Para obter mais informações sobre a sintaxe, consulte CREATE TABLE no Guia do desenvolvedor de banco de dados do Amazon Redshift.

Como criar e carregar dados usando um cliente SQL, como o Editor de Consultas v2
  1. Execute o comando SQL a seguir para CRIAR a tabela sales.

    drop table if exists sales; create table sales( salesid integer not null, listid integer not null distkey, sellerid integer not null, buyerid integer not null, eventid integer not null, dateid smallint not null sortkey, qtysold smallint not null, pricepaid decimal(8,2), commission decimal(8,2), saletime timestamp);
  2. Execute o comando SQL a seguir para CRIAR a tabela date.

    drop table if exists date; create table date( dateid smallint not null distkey sortkey, caldate date not null, day character(3) not null, week smallint not null, month character(5) not null, qtr character(5) not null, year smallint not null, holiday boolean default('N'));
  3. Carregue a tabela sales do Amazon S3 usando o comando COPY.

    nota

    Recomendamos usar o comando COPY para carregar grandes conjuntos de dados no Amazon Redshift por meio do Amazon S3. Para obter mais informações sobre sintaxe de COPY, consulte COPY no Guia do desenvolvedor de banco de dados do Amazon Redshift.

    Forneça autenticação ao seu cluster para acessar o Amazon S3 em seu nome para carregar os dados de amostra. Você pode oferecer autenticação fazendo referência ao perfil do IAM criado e definido como default para o cluster ao escolher Criar função do IAM como padrão na criação do cluster.

    Carregue a tabela sales usando o comando SQL a seguir. Como alternativa, é possível baixar e visualizar os dados de origem do Amazon S3 para a tabela sales. .

    COPY sales FROM 's3://redshift-downloads/tickit/sales_tab.txt' DELIMITER '\t' TIMEFORMAT 'MM/DD/YYYY HH:MI:SS' REGION 'us-east-1' IAM_ROLE default;
  4. Carregue a tabela date usando o comando SQL a seguir. Como alternativa, é possível baixar e visualizar os dados de origem do Amazon S3 para a tabela date. .

    COPY date FROM 's3://redshift-downloads/tickit/date2008_pipe.txt' DELIMITER '|' REGION 'us-east-1' IAM_ROLE default;

Carregar dados do Amazon S3 usando o Editor de Consultas v2

O Editor de Consultas v2 simplifica o carregamento de dados ao usar o assistente Carregar dados. O comando COPY gerado e utilizado no assistente Carregar dados do Editor de Consultas v2 é compatível com muitos parâmetros disponíveis para a sintaxe do comando COPY para carregar dados do Amazon S3. Para obter informações sobre o comando COPY e suas opções usadas para copiar a carga do Amazon S3, consulte COPY do Amazon Simple Storage Service no Guia do desenvolvedor do Amazon Redshift.

Para carregar seus dados do Amazon S3 para o Amazon Redshift, o Amazon Redshift requer uma função do IAM que tenha os privilégios necessários para carregar dados do bucket do Amazon S3 especificado.

Para este tutorial, primeiro abra o Editor de Consultas do Amazon Redshift v2 e conecte-se a um banco de dados. Depois, crie a tabela que conterá os dados carregados. Depois, carregue seus dados do Amazon S3 para o Amazon Redshift. Para ter mais informações sobre como trabalhar com o Editor de Consultas v2, consulte Carregar dados em um banco de dados no Guia de gerenciamento do Amazon Redshift.

Criar dados TICKIT no cluster

É possível criar o conjunto completo de tabelas TICKIT e carregar dados no cluster das seguintes maneiras:

  • Ao criar um cluster no console do Amazon Redshift, você tem a opção de carregar dados TICKIT de exemplo simultaneamente. No console do Amazon Redshift, selecione Clusters e Criar cluster. Na seção Dados de exemplo, selecione Carregar dados de exemplo. O Amazon Redshift carregará automaticamente o conjunto de dados de exemplo para o banco de dados dev do cluster do Amazon Redshift durante a criação do cluster.

  • Com o Editor de Consultas do Amazon Redshift v2, é possível carregar dados TICKIT em um banco de dados de exemplo chamado sample_data_dev. Acesse o banco de dados sample_data_dev, clique em tickit e, no menu de contexto, escolha Abrir caderno de exemplo. O Editor de Consultas do Amazon Redshift v2 cria o banco de dados de exemplo além de um caderno de exemplo chamado tickit-sample-notebook. É possível executar esse caderno para consultar dados no banco de dados de exemplo.

Para visualizar detalhes sobre os dados TICKIT, consulte Banco de dados de exemplo no Guia do desenvolvedor de banco de dados do Amazon Redshift.