Preparação e limpeza de dados - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparação e limpeza de dados

A preparação e a limpeza de dados são uma das etapas mais importantes, porém mais demoradas, do ciclo de vida dos dados. O diagrama a seguir mostra como o estágio de preparação e limpeza de dados se encaixa no ciclo de vida de automação e controle de acesso da engenharia de dados.

Diagrama de preparação e limpeza de dados

Aqui estão alguns exemplos de preparação ou limpeza de dados:

  • Mapeando colunas de texto para códigos

  • Ignorando colunas vazias

  • Preenchendo campos de dados vazios com 0None, ou ''

  • Anonimizar ou mascarar informações de identificação pessoal (PII)

Se você tem uma grande carga de trabalho com uma variedade de dados, recomendamos que você use o Amazon EMR ou o AWS Glue para suas tarefas de preparação e limpeza de dados. O Amazon EMR e o AWS Glue trabalham com dados não estruturados, semiestruturados e relacionais, e ambos podem usar o Apache Spark para criar ou trabalhar com processamento horizontal. DataFrame DynamicFrame Além disso, você pode usar o AWS Glue DataBrew para limpar e processar dados com uma abordagem sem código. Além disso, DataBrew pode criar o perfil do seu conjunto de dados com estatísticas de colunas, fornecer linhagens de dados e incluir regras de qualidade de dados para todas as colunas ou para colunas especificadas.

Para cargas de trabalho menores que não exigem processamento distribuído e podem ser concluídas em menos de 15 minutos, recomendamos que você use o AWS Lambda para preparação e limpeza de dados. O Lambda é uma opção econômica e leve para cargas de trabalho menores. Para dados altamente seguros que não podem entrar na nuvem, recomendamos que você realize a anonimização de dados nas instâncias do Amazon Elastic Compute Cloud EC2 (Amazon) usando um servidor AWS Outposts.

É essencial escolher o serviço certo da AWS para preparação e limpeza de dados e entender as vantagens e desvantagens envolvidas em sua escolha. Por exemplo, considere um cenário em que você está escolhendo entre o AWS Glue e o Amazon EMR. DataBrew O AWS Glue é ideal se o trabalho de ETL não for frequente. Um trabalho pouco frequente ocorre uma vez por dia, uma vez por semana ou uma vez por mês. Além disso, você pode presumir que seus engenheiros de dados são proficientes em escrever código Spark (para casos de uso de big data) ou criar scripts em geral. Se o trabalho for mais frequente, executar o AWS Glue constantemente pode sair caro. Nesse caso, o Amazon EMR fornece recursos de processamento distribuído e oferece uma versão sem servidor e baseada em servidor. Se seus engenheiros de dados não tiverem as habilidades certas ou se você precisar fornecer resultados rapidamente, essa DataBrew é uma boa opção. DataBrew pode reduzir o esforço de desenvolver código e acelerar o processo de preparação e limpeza de dados.

Depois que o processamento for concluído, os dados do processo de ETL serão armazenados na AWS. A escolha do armazenamento depende do tipo de dados com os quais você está lidando. Por exemplo, você pode trabalhar com dados não relacionais, como dados gráficos, dados de pares de valores-chave, imagens, arquivos de texto ou dados estruturados relacionais.

Conforme mostrado no diagrama a seguir, você pode usar os seguintes serviços da AWS para armazenamento de dados:

Serviços de armazenamento de dados.

Ao usar o serviço certo com as configurações corretas, você pode armazenar seus dados da maneira mais eficiente e eficaz. Isso minimiza o esforço envolvido na recuperação de dados.