Automatize a ingestão de dados do AWS Data Exchange para o Amazon S3 - Recomendações da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Automatize a ingestão de dados do AWS Data Exchange para o Amazon S3

Criado por Adnan Alvee (AWS) e Manikanta Gona () AWS

Tecnologias: Análise; DataLakes

Ambiente: produção

AWSserviços: Amazon S3; Amazon; CloudWatch LambdaAWS; Amazon SNS

Resumo

Esse padrão fornece um AWS CloudFormation modelo que permite que você consuma automaticamente AWS dados do Data Exchange em seu data lake no Amazon Simple Storage Service (Amazon S3). 

AWSO Data Exchange é um serviço que facilita a troca segura de conjuntos de dados baseados em arquivos na nuvem. AWS AWSOs conjuntos de dados do Data Exchange são baseados em assinatura. Como assinante, você também pode acessar as revisões do conjunto de dados à medida que os provedores publicam novos dados. 

O AWS CloudFormation modelo cria um evento Amazon CloudWatch Events e uma função AWS Lambda. O evento observa todas as atualizações do conjunto de dados no qual você se inscreveu. Se houver uma atualização, CloudWatch inicia uma função Lambda, que copia os dados para o bucket do S3 que você especificar. Quando os dados são copiados com sucesso, o Lambda envia uma notificação do Amazon Simple Notification Service (SNSAmazon).

Pré-requisitos e limitações

Pré-requisitos

  • Uma AWS conta ativa

  • Assinatura de um conjunto de AWS dados no Data Exchange

Limitações

  • O AWS CloudFormation modelo deve ser implantado separadamente para cada conjunto de dados inscrito no AWS Data Exchange.

Arquitetura

Pilha de tecnologias de destino

  • AWSLambda

  • Amazon S3

  • AWS Data Exchange

  • Amazon CloudWatch

  • Amazon SNS

Arquitetura de destino

CloudWatch inicia uma função Lambda para copiar dados para o bucket do S3 e enviar uma notificação à Amazon. SNS

Automação e escala

Você pode usar o AWS CloudFormation modelo várias vezes para os conjuntos de dados que deseja ingerir no data lake.

Ferramentas

  • AWSData Exchange — Um serviço que facilita AWS aos clientes a troca segura de conjuntos de dados baseados em arquivos na nuvem. AWS Como assinante, você pode encontrar e assinar centenas de produtos de provedores de dados qualificados. Em seguida, você pode baixar rapidamente o conjunto de dados ou copiá-lo para o Amazon S3 para uso em uma variedade de serviços de AWS análise e aprendizado de máquina. Qualquer pessoa com uma AWS conta pode ser assinante do AWS Data Exchange.

  • AWSLambda — um serviço de computação que permite executar código sem provisionar ou gerenciar servidores. AWSO Lambda executa seu código somente quando necessário e escala automaticamente, de algumas solicitações por dia a milhares por segundo. Você paga somente pelo tempo de computação utilizado; não há cobrança quando seu código não está em execução. Com o AWS Lambda, você pode executar código para praticamente qualquer tipo de aplicativo ou serviço de back-end sem nenhuma administração. AWSO Lambda executa seu código em uma infraestrutura computacional de alta disponibilidade e gerencia todos os recursos computacionais, incluindo manutenção do servidor e do sistema operacional, provisionamento de capacidade e escalabilidade automática, monitoramento de código e registro.

  • Amazon S3: armazenamento para a Internet. Você pode utilizar o Amazon S3 para armazenar e recuperar qualquer volume de dados, a qualquer momento, de qualquer lugar na web.

  • Amazon CloudWatch Events — entrega um fluxo quase em tempo real de eventos do sistema que descrevem mudanças nos AWS recursos. Usando regras simples que você pode configurar rapidamente, você pode combinar eventos e roteá-los para uma ou mais funções ou fluxos de destino. CloudWatch Os eventos ficam cientes das mudanças operacionais à medida que elas ocorrem. Ele responde a essas alterações operacionais e executa a ação corretiva conforme necessário, enviando mensagens para responder ao ambiente, ativando funções, fazendo alterações e capturando informações de estado. Você também pode usar CloudWatch Eventos para programar ações automatizadas que se iniciam automaticamente em determinados momentos usando expressões cron ou rate.

  • Amazon SNS — Um serviço web que permite que aplicativos, usuários finais e dispositivos enviem e recebam notificações instantaneamente da nuvem. SNSA Amazon fornece tópicos (canais de comunicação) para mensagens de alto rendimento baseadas em push. many-to-many Usando SNS tópicos da Amazon, os editores podem distribuir mensagens para um grande número de assinantes para processamento paralelo, incluindo filas do Amazon Simple Queue Service SQS (Amazon), funções AWS Lambda e webhooks /S. HTTP Você também pode usar SNS a Amazon para enviar notificações aos usuários finais usando mobileSMS, push e e-mail.

Épicos

TarefaDescriçãoHabilidades necessárias

Assine um conjunto de dados

No console do AWS Data Exchange, assine um conjunto de dados. Para obter instruções, consulte o link na seção “Recursos relacionados”.

Geral AWS

Observe os atributos do conjunto de dados.

Anote a AWS região, o ID e o ID da revisão do conjunto de dados. Você precisará disso para o AWS CloudFormation modelo na próxima etapa.

Geral AWS
TarefaDescriçãoHabilidades necessárias

Crie um bucket e uma pasta no S3.

Se você já tiver um data lake no Amazon S3, crie uma pasta para armazenar os dados a serem ingeridos do Data ExchangeAWS. Se você estiver implantando o modelo para fins de teste, crie um novo bucket do S3 e anote o nome do bucket e o prefixo da pasta para a próxima etapa.

Geral AWS

Implante o AWS CloudFormation modelo.

Implante o AWS CloudFormation modelo fornecido como anexo a esse padrão. Configure os seguintes parâmetros para corresponder às configurações da sua AWS conta, do conjunto de dados e do bucket do S3: AWS região do conjunto de dados, ID do conjunto de dados, ID da revisão, nome do bucket do S3 (por exemplo, DOC - EXAMPLE -BUCKET), prefixo da pasta (por exemplo, myfolder/) e e-mail para notificação. SNS Você pode definir o parâmetro Nome do conjunto de dados como qualquer nome. Quando você implanta o modelo, ele executa uma função do Lambda para ingerir automaticamente o primeiro conjunto de dados disponível no conjunto de dados. A ingestão subsequente ocorre automaticamente, à medida que novos dados chegam ao conjunto de dados.

Geral AWS

Recursos relacionados

Anexos

Para acessar o conteúdo adicional associado a este documento, descompacte o seguinte arquivo: attachment.zip