SUS04-BP05: Eliminación de datos innecesarios o redundantes - AWS Well-Architected Framework

SUS04-BP05: Eliminación de datos innecesarios o redundantes

Elimine datos innecesarios o redundantes para minimizar los recursos de almacenamiento necesarios para guardar sus conjuntos de datos.

Patrones comunes de uso no recomendados:

  • Duplica datos que se pueden obtener o recrear fácilmente.

  • Realiza copia de seguridad de todos los datos sin tener en cuenta su criticidad.

  • Solo elimina datos de forma irregular, en eventos operativos o no los elimina en absoluto.

  • Almacena datos de forma redundante independientemente de la durabilidad del servicio de almacenamiento.

  • Activa el control de versiones de Amazon S3 sin ninguna justificación empresarial.

Beneficios de establecer esta práctica recomendada: la eliminación de datos redundantes reduce el tamaño de almacenamiento necesario de la carga de trabajo y su impacto medioambiental.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: medio

Guía para la implementación

No almacene datos que no necesite. Automatice la eliminación de datos innecesarios. Use tecnologías que desdupliquen los datos en el nivel de archivo y de bloque. Aproveche las características de replicación y redundancia de datos nativos de los servicios.

Pasos para la aplicación

  • Evalúe si puede evitar almacenar datos mediante los conjuntos de datos existentes de disponibilidad pública en AWS Data Exchange y Open Data on AWS (Datos abiertos en AWS).

  • Use mecanismos que puedan desduplicar los datos en el nivel de bloque y de objeto. A continuación, se ofrecen algunos ejemplos de cómo desduplicar datos en AWS:

    Storage service Deduplication mechanism

    Amazon S3

    Use AWS Lake Formation FindMatches para encontrar registros coincidentes en un conjunto de datos (incluidos los que no tienen identificadores) con la nueva transformación de ML FindMatches.

    Amazon FSx

    Utilice la desduplicación de datos en Amazon FSx para Windows.

    Instantáneas de Amazon Elastic Block Store

    Las instantáneas son copias de seguridad progresivas, lo que significa que solo se guardan los bloques del dispositivo que han cambiado después de la instantánea más reciente.

  • Analice el acceso de datos para identificar los datos innecesarios. Automatice las políticas de ciclo de vida. Aproveche las características nativas del servicio, como el tiempo de vida de Amazon DynamoDB, Amazon S3 Lifecycle o la retención de registros de Amazon CloudWatch para su eliminación.

  • Utilice las capacidades de virtualización de datos en AWS para mantener los datos en su origen y evitar la duplicación de datos.

  • Use una tecnología de copia de seguridad que pueda crear copias incrementales.

  • Aproveche la durabilidad de Amazon S3 y la replicación de Amazon EBS para conseguir sus objetivos de durabilidad en lugar de tecnologías autoadministradas (como una matriz redundante de discos independientes [RAID]).

  • Centralice los datos de registro y de seguimiento, desduplique las entradas de registro que sean idénticas y establezca mecanismos para ajustar los detalles cuando sea necesario.

  • Rellene las memorias caché previamente solo cuando se justifique.

  • Establezca la supervisión y automatización de la memoria caché para ajustar el tamaño de esta en consonancia.

  • Quite los despliegues y los recursos desfasados de los almacenes de objetos y las memorias caché periféricas al introducir nuevas versiones de su carga de trabajo.

Recursos

Documentos relacionados:

Vídeos relacionados:

Ejemplos relacionados: