SEC07-BP04 Definición de la administración escalable del ciclo de vida de los datos - AWS Well-Architected Framework

SEC07-BP04 Definición de la administración escalable del ciclo de vida de los datos

Comprenda los requisitos del ciclo de vida de sus datos en relación con sus diferentes niveles de clasificación y gestión de datos.  Entre ellos pueden estar la forma de gestionar los datos cuando entran por primera vez en su entorno, la manera de transformarlos y las reglas para su destrucción. Tenga en cuenta factores como los períodos de retención, el acceso, la auditoría y el seguimiento de la procedencia.

Resultado deseado: clasificar los datos lo más cerca posible del punto y el momento de su ingesta. Cuando la clasificación de datos requiera el enmascaramiento, la tokenización u otros procesos que reduzcan el nivel de confidencialidad, realizar estas acciones lo más cerca posible del punto y el momento de su ingesta.

Eliminar los datos de acuerdo con su política cuando ya no resulte apropiado conservarlos en función de su clasificación.

Antipatrones usuales:

  • Implementar un enfoque único para la administración del ciclo de vida de los datos, sin tener en cuenta los diferentes niveles de confidencialidad y los requisitos de acceso.

  • Plantearse la administración del ciclo de vida únicamente desde la perspectiva de los datos utilizables o de los datos para los que existan copias de seguridad, pero no desde ambas perspectivas.

  • Dar por sentado que los datos que han llegado a la carga de trabajo son válidos, sin determinar su valor o procedencia.

  • Confiar en la durabilidad de los datos como alternativa a realizar copias de seguridad y protegerlos.

  • Retener los datos más allá de su plazo de utilidad y del período de retención requerido.

Beneficios de establecer esta práctica recomendada: una estrategia de administración del ciclo de vida de los datos bien definida y escalable ayuda a mantener el cumplimiento normativo, mejora la seguridad de los datos, optimiza los costes de almacenamiento y mejora la eficiencia en el acceso a los datos y el intercambio de estos, mientras se mantienen los controles pertinentes.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: alto

Guía para la implementación

Los datos de una carga de trabajo suelen ser dinámicos.  La forma que adoptan al entrar en el entorno de una carga de trabajo puede ser diferente a la que adoptan cuando se almacenan o se usan en la lógica empresarial, los informes, el análisis o el machine learning.  Además, su valor puede cambiar con el tiempo. Algunos datos son de naturaleza temporal y pierden valor con el paso del tiempo.  Tenga en cuenta cómo afectan estos cambios de los datos a la evaluación planteada según su esquema de clasificación de datos y los controles asociados.  Siempre que sea posible, utilice un mecanismo de ciclo de vida automatizado, como las políticas de ciclo de vida de Amazon S3 y Amazon Data Lifecycle Manager, para configurar los procesos de retención, archivado y caducidad de datos.  

Distinga entre los datos que están disponibles para su uso y aquellos almacenados en copias de seguridad.  Plantéese la posibilidad de utilizar AWS Backup para automatizar la copia de seguridad de los datos en todos los servicios de AWS. Las instantáneas de Amazon EBS ofrecen una forma de copiar un volumen de EBS y almacenarlo mediante las funciones de S3, como el ciclo de vida, la protección de datos y el acceso a los mecanismos de protección. Dos de estos mecanismos son S3 Object Lock y AWS Backup Vault Lock, que pueden proporcionarle medidas de seguridad y control adicionales sobre sus copias de seguridad. Administre una separación clara de las funciones y el acceso a las copias de seguridad. Aísle las copias de seguridad a nivel de cuenta para mantener la separación del entorno afectado durante un evento.

Otro aspecto de la administración del ciclo de vida consiste en registrar el historial de los datos a medida que avanzan en la carga de trabajo, lo que se denomina seguimiento de la procedencia de los datos. Esto puede ofrecerle la confianza de saber de dónde provienen los datos, qué transformaciones se han realizado, qué propietario o proceso ha realizado esos cambios y cuándo.  Disponer de este historial ayuda a solucionar problemas y a realizar investigaciones durante posibles eventos de seguridad.  Por ejemplo, puede registrar los metadatos sobre las transformaciones en una tabla de Amazon DynamoDB.  Dentro de un lago de datos, puede guardar copias de los datos transformados en diferentes buckets de S3 para cada etapa de la canalización de datos. Almacene la información del esquema y la marca de tiempo en un AWS Glue Data Catalog.  Independientemente de cuál sea su solución, tenga en cuenta los requisitos de los usuarios finales a la hora de determinar las herramientas adecuadas que necesita para informar sobre la procedencia de sus datos.  Esto le ayudará a determinar la mejor manera de rastrear su procedencia.

Pasos para la implementación

  1. Analice los tipos de datos, los niveles de confidencialidad y los requisitos de acceso de la carga de trabajo para clasificar los datos y definir las estrategias de administración del ciclo de vida adecuadas.

  2. Diseñe e implemente políticas de retención de datos y procesos de destrucción automatizados que se ajusten a los requisitos legales, normativos y organizativos.

  3. Establezca procesos y medidas de automatización para la supervisión, la auditoría y el ajuste continuos de las estrategias, los controles y las políticas de administración del ciclo de vida de los datos a medida que evolucionen los requisitos y las normativas de la carga de trabajo.

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Ejemplos relacionados:

Herramientas relacionadas: