As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Descarregue dados de um cluster do Amazon Redshift entre contas para o Amazon S3
Criado por Andrew Kamel (AWS)
Resumo
Ao testar aplicativos, é útil ter dados de produção em seu ambiente de teste. O uso de dados de produção pode fornecer uma avaliação mais precisa do aplicativo que você está desenvolvendo.
Esse padrão extrai dados de um cluster do Amazon Redshift em um ambiente de produção para um bucket do Amazon Simple Storage Service (Amazon S3) em um ambiente de desenvolvimento no Amazon Web Services ().AWS
O padrão percorre a configuração das contas DEV e PROD, incluindo o seguinte:
Recursos necessários
AWS Identity and Access Management Funções (IAM)
Ajustes de rede em sub-redes, grupos de segurança e na nuvem privada virtual (VPC) para dar suporte à conexão do Amazon Redshift
Um exemplo de AWS Lambda função com um tempo de execução em Python para testar a arquitetura
Para conceder acesso ao cluster do Amazon Redshift, o padrão é usado AWS Secrets Manager para armazenar as credenciais relevantes. O benefício é ter todas as informações necessárias para se conectar diretamente ao cluster do Amazon Redshift sem precisar saber onde o cluster do Amazon Redshift reside. Além disso, você pode monitorar o uso do segredo.
O segredo salvo no Secrets Manager inclui o host, o nome do banco de dados, a porta e as credenciais relevantes do cluster Amazon Redshift.
Para obter informações sobre considerações de segurança ao usar esse padrão, consulte a seção Melhores práticas.
Pré-requisitos e limitações
Pré-requisitos
Um cluster do Amazon Redshift em execução na conta PROD
Um bucket S3 criado na conta DEV
Emparelhamento de VPC entre as contas DEV e PROD, com tabelas de rotas ajustadas adequadamente
Nomes de host DNS e resolução de DNS habilitados para ambos emparelhados VPCs
Limitações
Dependendo da quantidade de dados que você deseja consultar, a função Lambda pode atingir o tempo limite.
Se sua execução demorar mais do que o tempo limite máximo do Lambda (15 minutos), use uma abordagem assíncrona para seu código Lambda. O exemplo de código desse padrão usa a biblioteca psycopg2
para Python, que atualmente não oferece suporte ao processamento assíncrono. Alguns Serviços da AWS não estão disponíveis em todos Regiões da AWS. Para ver a disponibilidade da região, consulte Serviços da AWS por região
. Para endpoints específicos, consulte a página de endpoints e cotas do serviço e escolha o link para o serviço.
Arquitetura
O diagrama a seguir mostra a arquitetura de destino, com contas DEV e PROD.

O diagrama mostra o seguinte fluxo de trabalho:
A função Lambda na conta DEV assume a função do IAM necessária para acessar as credenciais do Amazon Redshift no Secrets Manager na conta PROD.
Em seguida, a função Lambda recupera o segredo do cluster Amazon Redshift.
A função Lambda na conta DEV usa as informações para se conectar ao cluster Amazon Redshift na conta PROD por meio do peering. VPCs
Em seguida, a função Lambda envia um comando de descarregamento para consultar o cluster do Amazon Redshift na conta PROD.
O cluster Amazon Redshift na conta PROD assume a função relevante do IAM para acessar o bucket do S3 na conta DEV.
O cluster Amazon Redshift descarrega os dados consultados no bucket do S3 na conta DEV.
Consultando dados do Amazon Redshift
O diagrama a seguir mostra as funções que são usadas para recuperar as credenciais do Amazon Redshift e conectar-se ao cluster do Amazon Redshift. O fluxo de trabalho é iniciado pela função Lambda.

O diagrama mostra o seguinte fluxo de trabalho:
O
CrossAccount-SM-Read-Role
na conta DEV pressupõe oSM-Read-Role
na conta PROD.A
SM-Read-Role
função usa a política anexada para recuperar o segredo do Secrets Manager.As credenciais são usadas para acessar o cluster do Amazon Redshift.
Carregando dados para o Amazon S3
O diagrama a seguir mostra o processo de leitura e gravação entre contas para extrair dados e enviá-los para o Amazon S3. O fluxo de trabalho é iniciado pela função Lambda. O padrão encadeia as funções do IAM no Amazon Redshift. O comando unload que vem do cluster do Amazon Redshift assume CrossAccount-S3-Write-Role
o e, em seguida, assume o. S3-Write-Role
Esse encadeamento de funções dá ao Amazon Redshift acesso ao Amazon S3.

O fluxo de trabalho inclui as seguintes etapas:
O
CrossAccount-SM-Read-Role
na conta DEV pressupõe oSM-Read-Role
na conta PROD.Ele
SM-Read-Role
recupera as credenciais do Amazon Redshift do Secrets Manager.A função Lambda se conecta ao cluster Amazon Redshift e envia uma consulta.
O cluster do Amazon Redshift pressupõe o.
CrossAccount-S3-Write-Role
Isso
CrossAccount-S3-Write-Role
pressupõe queS3-Write-Role
na conta DEV.Os resultados da consulta são descarregados no bucket do S3 na conta DEV.
Ferramentas
Serviços da AWS
AWS Key Management Service (AWS KMS) ajuda você a criar e controlar chaves criptográficas para ajudar a proteger seus dados.
O AWS Lambda é um serviço de computação que ajuda a executar código sem exigir provisionamento ou gerenciamento de servidores. Ele executa o código somente quando necessário e dimensiona automaticamente, assim, você paga apenas pelo tempo de computação usado.
O Amazon Redshift é um serviço de data warehouse em escala de petabytes gerenciado na Nuvem AWS.
O AWS Secrets Manager ajuda a substituir credenciais codificadas, incluindo senhas, por uma chamada de API ao Secrets Manager para recuperar o segredo por programação.
O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.
Repositório de código
O código desse padrão está disponível no repositório GitHub unload-redshift-to-s3-python
Práticas recomendadas
Isenção de responsabilidade de segurança
Antes de implementar essa solução, considere as seguintes recomendações de segurança importantes:
Lembre-se de que conectar as contas de desenvolvimento e produção pode aumentar o escopo e reduzir a postura geral de segurança. Recomendamos implantar essa solução apenas temporariamente, extraindo a parte necessária dos dados e destruindo imediatamente os recursos implantados. Para destruir os recursos, você deve excluir a função Lambda, remover todas as funções e políticas do IAM criadas para essa solução e revogar qualquer acesso à rede concedido entre as contas.
Consulte suas equipes de segurança e conformidade antes de copiar quaisquer dados dos ambientes de produção para os de desenvolvimento. Informações de identificação pessoal (PII), informações de saúde protegidas (PHI) e outros dados confidenciais ou regulamentados geralmente não devem ser copiados dessa maneira. Copie somente informações não confidenciais disponíveis publicamente (por exemplo, dados de estoque público do front-end de uma loja). Considere tokenizar ou anonimizar dados, ou gerar dados de teste sintéticos, em vez de usar dados de produção sempre que possível. Um dos princípios de AWS segurança é manter as pessoas afastadas dos dados. Em outras palavras, os desenvolvedores não devem realizar operações na conta de produção.
Restrinja o acesso à função Lambda na conta de desenvolvimento porque ela pode ler dados do cluster Amazon Redshift no ambiente de produção.
Para evitar a interrupção do ambiente de produção, implemente as seguintes recomendações:
Use uma conta de desenvolvimento separada e dedicada para atividades de teste e desenvolvimento.
Implemente controles rígidos de acesso à rede e limite o tráfego entre contas somente ao necessário.
Monitore e audite o acesso ao ambiente de produção e às fontes de dados.
Implemente controles de acesso com privilégios mínimos para todos os recursos e serviços envolvidos.
Revise e alterne regularmente as credenciais, como AWS Secrets Manager segredos e chaves de acesso à função do IAM.
Consulte a documentação de segurança a seguir para os serviços usados neste artigo:
A segurança é a principal prioridade ao acessar dados e recursos de produção. Sempre siga as melhores práticas, implemente controles de acesso com privilégios mínimos e revise e atualize regularmente suas medidas de segurança.
Épicos
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Crie um segredo para o cluster Amazon Redshift. | Para criar o segredo para o cluster do Amazon Redshift, faça o seguinte:
| DevOps engenheiro |
Crie uma função para acessar o Secrets Manager. | Para criar a função, faça o seguinte:
| DevOps engenheiro |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Crie uma função para acessar o bucket do S3. | Para criar a função para acessar o bucket do S3, faça o seguinte:
| DevOps engenheiro |
Crie a função do Amazon Redshift. | Para criar a função do Amazon Redshift, faça o seguinte:
| DevOps engenheiro |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Implante a função do Lambda. | Para implantar uma função Lambda na VPC emparelhada, faça o seguinte:
| DevOps engenheiro |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Importe os recursos necessários. | Para importar os recursos necessários, execute os seguintes comandos:
| Desenvolvedor de aplicativos |
Execute a função de manipulador do Lambda. | A função Lambda usa AWS Security Token Service (AWS STS) para acesso entre contas e gerenciamento temporário de credenciais. A função usa a operação AssumeRole da API para assumir temporariamente as permissões da função Para executar a função Lambda, use o código de exemplo a seguir:
| Desenvolvedor de aplicativos |
Descubra o segredo. | Para obter o segredo do Amazon Redshift, use o seguinte código de exemplo:
| Desenvolvedor de aplicativos |
Execute o comando de descarga. | Para descarregar os dados no bucket do S3, use o código de exemplo a seguir.
| Desenvolvedor de aplicativos |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Exclua a função do Lambda. | Para evitar custos não planejados, remova os recursos e a conexão entre as contas DEV e PROD. Para remover a função Lambda, faça o seguinte:
| DevOps engenheiro |
Remova as funções e políticas do IAM. | Remova as funções e políticas do IAM das contas DEV e PROD. Na conta DEV, faça o seguinte:
Na conta PROD, faça o seguinte:
| DevOps engenheiro |
Exclua o segredo no Secrets Manager. | Para excluir o segredo, faça o seguinte:
| DevOps engenheiro |
Remova as regras de emparelhamento de VPC e de grupos de segurança. | Para remover as regras de emparelhamento de VPC e de grupos de segurança, faça o seguinte:
| DevOps engenheiro |
Remova os dados do bucket do S3. | Para remover os dados do Amazon S3, faça o seguinte:
| DevOps engenheiro |
Limpe AWS KMS as chaves. | Se você criou alguma AWS KMS chave personalizada para criptografia, faça o seguinte:
| DevOps engenheiro |
Revise e exclua CloudWatch os registros da Amazon. | Para excluir os CloudWatch registros, faça o seguinte:
| DevOps engenheiro |
Recursos relacionados
Mais informações
Depois de descarregar os dados do Amazon Redshift para o Amazon S3, você pode analisá-los usando o Amazon Athena.
O Amazon Athena é um serviço de consulta de big data que é benéfico quando você precisa acessar grandes volumes de dados. Você pode usar o Athena sem precisar provisionar servidores ou bancos de dados. O Athena oferece suporte a consultas complexas e você pode executá-lo em objetos diferentes.
Como acontece com a maioria Serviços da AWS, o principal benefício de usar o Athena é que ele oferece grande flexibilidade na forma como você executa consultas sem a complexidade adicional. Ao usar o Athena, você pode consultar diferentes tipos de dados, como CSV e JSON, no Amazon S3 sem alterar o tipo de dados. Você pode consultar dados de várias fontes, inclusive externas AWS. O Athena reduz a complexidade porque você não precisa gerenciar servidores. O Athena lê dados diretamente do Amazon S3 sem carregar ou alterar os dados antes de você executar a consulta.