Preparação e limpeza de dados

A preparação e a limpeza de dados são uma das etapas mais importantes, porém mais demoradas, do ciclo de vida dos dados. O diagrama a seguir mostra como o estágio de preparação e limpeza de dados se encaixa no ciclo de vida de automação e controle de acesso da engenharia de dados.

Aqui estão alguns exemplos de preparação ou limpeza de dados:

Mapeando colunas de texto para códigos
Ignorando colunas vazias
Preenchendo campos de dados vazios com 0None, ou ''
Anonimizar ou mascarar informações de identificação pessoal (PII)

Se você tem uma grande carga de trabalho com uma variedade de dados, recomendamos que você use o Amazon EMR ou o AWS Glue para suas tarefas de preparação e limpeza de dados. O Amazon EMR e o AWS Glue trabalham com dados não estruturados, semiestruturados e relacionais, e ambos podem usar o Apache Spark para criar ou trabalhar com processamento horizontal. DataFrame DynamicFrame Além disso, você pode usar o AWS Glue DataBrew para limpar e processar dados com uma abordagem sem código. Além disso, DataBrew pode criar o perfil do seu conjunto de dados com estatísticas de colunas, fornecer linhagens de dados e incluir regras de qualidade de dados para todas as colunas ou para colunas especificadas.

Para cargas de trabalho menores que não exigem processamento distribuído e podem ser concluídas em menos de 15 minutos, recomendamos que você use o AWS Lambda para preparação e limpeza de dados. O Lambda é uma opção econômica e leve para cargas de trabalho menores. Para dados altamente seguros que não podem entrar na nuvem, recomendamos que você realize a anonimização de dados nas instâncias do Amazon Elastic Compute Cloud EC2 (Amazon) usando um servidor AWS Outposts.

É essencial escolher o serviço certo da AWS para preparação e limpeza de dados e entender as vantagens e desvantagens envolvidas em sua escolha. Por exemplo, considere um cenário em que você está escolhendo entre o AWS Glue e o Amazon EMR. DataBrew O AWS Glue é ideal se o trabalho de ETL não for frequente. Um trabalho pouco frequente ocorre uma vez por dia, uma vez por semana ou uma vez por mês. Além disso, você pode presumir que seus engenheiros de dados são proficientes em escrever código Spark (para casos de uso de big data) ou criar scripts em geral. Se o trabalho for mais frequente, executar o AWS Glue constantemente pode sair caro. Nesse caso, o Amazon EMR fornece recursos de processamento distribuído e oferece uma versão sem servidor e baseada em servidor. Se seus engenheiros de dados não tiverem as habilidades certas ou se você precisar fornecer resultados rapidamente, essa DataBrew é uma boa opção. DataBrew pode reduzir o esforço de desenvolver código e acelerar o processo de preparação e limpeza de dados.

Depois que o processamento for concluído, os dados do processo de ETL serão armazenados na AWS. A escolha do armazenamento depende do tipo de dados com os quais você está lidando. Por exemplo, você pode trabalhar com dados não relacionais, como dados gráficos, dados de pares de valores-chave, imagens, arquivos de texto ou dados estruturados relacionais.

Conforme mostrado no diagrama a seguir, você pode usar os seguintes serviços da AWS para armazenamento de dados:

O Amazon S3 armazena dados não estruturados ou dados semiestruturados (por exemplo, arquivos, imagens e vídeos do Apache Parquet).
O Amazon Neptune armazena conjuntos de dados gráficos que você pode consultar usando SPARQL ou GREMLIN.
O Amazon Keyspaces (para Apache Cassandra) armazena conjuntos de dados compatíveis com o Apache Cassandra.
O Amazon Aurora armazena conjuntos de dados relacionais.
O Amazon DynamoDB armazena dados de valores-chave ou documentos em um banco de dados NoSQL.
O Amazon Redshift armazena cargas de trabalho para dados estruturados em um data warehouse.

Ao usar o serviço certo com as configurações corretas, você pode armazenar seus dados da maneira mais eficiente e eficaz. Isso minimiza o esforço envolvido na recuperação de dados.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Coleta de dados

Verificações de qualidade de dados