SEC07-BP04 Definir o gerenciamento escalável do ciclo de vida dos dados - AWS Well-Architected Framework

SEC07-BP04 Definir o gerenciamento escalável do ciclo de vida dos dados

Entenda os requisitos do ciclo de vida dos dados relacionados aos seus diferentes níveis de classificação e tratamento de dados.  Isso pode incluir como os dados são tratados quando entram pela primeira vez em seu ambiente, como eles são transformados e as regras de destruição. Considere fatores como períodos de retenção, acesso, auditoria e rastreamento de procedência.

Resultado desejado: os dados são classificados o mais próximo possível do ponto e hora de ingestão. Quando a classificação de dados exige mascaramento, tokenização ou outros processos que reduzam o nível de confidencialidade, você executa essas ações o mais próximo possível do ponto e hora de ingestão.

Você exclui os dados de acordo com sua política quando não é mais apropriado mantê-los e com base na respectiva classificação.

Antipadrões comuns:

  • Implementar uma abordagem única de gerenciamento do ciclo de vida dos dados sem considerar os diferentes níveis de confidencialidade e requisitos de acesso.

  • Considerar o gerenciamento do ciclo de vida somente do ponto de vista dos dados utilizáveis ou dos dados submetidos a backup, mas não de ambos.

  • Supor que os dados que entraram na workload são válidos, sem estabelecer o respectivo valor ou procedência.

  • Confiar na durabilidade dos dados como substituto dos backups e da proteção de dados.

  • Reter os dados depois que eles já perderam a utilidade e após o período de retenção exigido.

Benefícios do estabelecimento desta prática recomendada: uma estratégia de gerenciamento do ciclo de vida dos dados bem definida e escalável ajuda a manter a conformidade regulatória, melhora a segurança dos dados, otimiza os custos de armazenamento e permite que os dados sejam acessados e compartilhados com eficiência, além de manter os controles apropriados.

Nível de exposição a riscos se esta prática recomendada não for estabelecida: alto

Orientações para a implementação

Os dados em uma workload geralmente são dinâmicos.  A forma que eles assumem ao entrar no ambiente da workload pode ser diferente de quando são armazenados ou usados em lógica de negócios, relatórios, análises ou machine learning.  Além disso, a importância dos dados pode mudar com o tempo. Alguns dados são de natureza temporal e perdem o valor à medida que se tornam obsoletos.  Considere como essas mudanças nos dados afetam a avaliação em seu esquema de classificação de dados e controles associados.  Sempre que possível, use um mecanismo de ciclo de vida automatizado, como políticas de ciclo de vida do Amazon S3 e o Amazon Data Lifecycle Manager, para configurar os processos de retenção, arquivamento e expiração de dados.  

Diferencie os dados que estão disponíveis para uso e os dados armazenados como backup.  Considere usar o AWS Backup para automatizar o backup de dados nos serviços da AWS. Os snapshots do Amazon EBS oferecem uma forma de copiar um volume do EBS e armazená-lo por meio dos recursos do S3, incluindo ciclo de vida, proteção de dados e acesso a mecanismos de proteção. Dois desses mecanismos são o Bloqueio de Objetos do S3 e a Trava de Segurança do AWS Backup, que podem fornecer segurança e controle adicionais sobre seus backups. Gerencie a separação clara de deveres e acesso para backups. Isole os backups no nível da conta para manter a separação do ambiente afetado durante um evento.

Outro aspecto do gerenciamento do ciclo de vida é registrar o histórico dos dados à medida que eles progridem na workload, processo chamado de rastreamento da procedência dos dados. Desse modo, você pode ter certeza de que sabe de onde os dados vieram, quais transformações foram realizadas, qual proprietário ou processo fez essas alterações e quando.  Ter esse histórico ajuda a solucionar problemas e investigações durante possíveis eventos de segurança.  Por exemplo, os metadados sobre transformações podem ser registrados em log em uma tabela do Amazon DynamoDB.  Em um data lake, você pode manter cópias dos dados transformados em diferentes buckets do S3 para cada estágio do pipeline de dados. Armazene informações de esquema e carimbo de data e hora em um AWS Glue Data Catalog.  Independentemente de sua solução, considere os requisitos dos usuários finais para determinar as ferramentas apropriadas e necessárias para oferecer um relatório sobre a procedência dos dados.  Isso ajudará você a determinar a melhor forma de rastrear a procedência.

Etapas da implementação

  1. Analise os tipos de dados, os níveis de confidencialidade e os requisitos de acesso da workload para classificar os dados e definir estratégias apropriadas de gerenciamento do ciclo de vida.

  2. Projete e implemente políticas de retenção de dados e processos automatizados de destruição que se alinhem aos requisitos legais, regulatórios e organizacionais.

  3. Estabeleça processos e automação para monitoramento, auditoria e ajuste contínuos de estratégias, controles e políticas de gerenciamento do ciclo de vida dos dados à medida que os requisitos e as regulamentações da workload evoluem.

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados:

Exemplos relacionados:

Ferramentas relacionadas: