SUS04-BP05 Supprimer les données inutiles ou redondantes

Supprimez les données inutiles ou redondantes pour minimiser les ressources de stockage requises pour stocker vos jeux de données.

Anti-modèles courants :

Vous dupliquez des données qui peuvent être facilement obtenues ou recréées.
Vous sauvegardez toutes les données sans tenir compte de leur criticité.
Vous ne supprimez les données que de façon irrégulière, sur les événements opérationnels ou pas du tout.
Vous stockez les données de manière redondante, quelle que soit la durabilité du service de stockage.
Vous activez la gestion des versions sans aucune justification commerciale.

Avantages liés au respect de cette bonne pratique : la suppression des données inutiles réduit la taille de stockage requise pour votre charge de travail et son impact environnemental.

Niveau de risque encouru si cette bonne pratique n’est pas respectée : moyen

Directives d’implémentation

La suppression des jeux de données inutiles et redondants permet de réduire les coûts de stockage et l’empreinte environnementale. Cette pratique peut également rendre l’informatique plus efficace, car les ressources de calcul traitent uniquement des données importantes au lieu de données inutiles. Automatisez la suppression des données inutiles. Utilisez des technologies qui dédupliquent les données au niveau du fichier et du bloc. Utilisez les fonctionnalités des services pour la réplication et la redondance des données natives.

Étapes d’implémentation

Évaluer les jeux de données publics : déterminez si vous pouvez éviter de stocker des données en utilisant des jeux de données existants publiquement accessibles dans AWS Data Exchange et les données ouvertes sur AWS.

Dédupliquer les données : utilisez des mécanismes qui peuvent dédupliquer les données au niveau du bloc et de l’objet. Voici quelques exemples de déduplication des données sur AWS :

Service de stockage	Mécanismes de déduplication
Amazon S3	Utilisez AWS Lake Formation FindMatches pour rechercher les enregistrements correspondants dans un jeu de données (y compris ceux sans identifiant) à l’aide de la nouvelle transformation FindMatches ML.
Amazon FSx	Utilisez la déduplication des données sur Amazon FSx for Windows
Instantanés volumes Amazon Elastic Block Store	Les instantanés sont des sauvegardes incrémentielles, ce qui signifie que seuls les blocs de l’appareil qui ont changé depuis l’instantané le plus récent sont enregistrés.

Utiliser des politiques de cycle de vie : utilisez des politiques de cycle de vie pour automatiser la suppression des données inutiles. Tirez parti de fonctionnalités de service natives telles qu’Amazon DynamoDB Time To Live, Amazon S3 Lifecycle ou la rétention des journaux Amazon CloudWatch pour la suppression.
Utiliser la virtualisation des données : utilisez les capacités de virtualisation des données sur AWS afin de maintenir les données à leur source et d’éviter leur duplication.
- Virtualisation des données natives dand le cloud sur AWS
- Optimiser le modèle de données à l’aide du partage de données Amazon Redshift
Utiliser la sauvegarde incrémentielle : utilisez une technologie de sauvegarde capable d’effectuer des sauvegardes incrémentielles.
Utiliser la durabilité native : tirez parti de la durabilité d’Amazon S3 et de la réplication d’Amazon EBS pour atteindre vos objectifs de durabilité au lieu de recourir à des technologies autogérées (telles qu’un réseau redondant de disques indépendants (RAID)).
Utiliser une journalisation efficace : centralisez les données de journaux et de suivi, dédupliquez les entrées de journaux identiques et établissez des mécanismes pour ajuster le niveau de détail, si nécessaire.
Utiliser une mise en cache efficace : préremplissez les caches uniquement lorsque cela est justifié.
Établissez la surveillance et l’automatisation des caches pour redimensionner correctement les caches.
Supprimer les ressources de version antérieure : supprimez les déploiements et les ressources obsolètes des magasins d’objets et des caches périphériques lors de la transmission des nouvelles versions de votre charge de travail.

Ressources

Documents connexes :

Vidéos connexes :

Cas d’utilisation du partage de données pour Amazon Redshift

Exemples connexes :

Comment analyser les journaux d’accès au serveur Amazon S3 à l’aide d’Amazon Athena ?

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

SUS04-BP04 Utiliser l'élasticité et l'automatisation pour étendre le stockage par blocs ou le système de fichiers

SUS04-BP06 Utiliser des systèmes de fichiers partagés ou le stockage pour accéder aux données courantes