PF 1 : Comment prenez-vous en charge les déploiements d'architecture haute disponibilité ?REL 2 : Comment atteignez-vous vos objectifs de point de reprise (RPOs) ElastiCache ?PF 3 : Comment répondez-vous aux exigences de reprise après sinistre (DR) ? PF 4 : Comment planifiez-vous efficacement les basculements ?REL 5 : Vos ElastiCache composants sont-ils conçus pour évoluer ?

Pilier de fiabilité des objectifs Amazon ElastiCache Well-Architected

Le pilier de la fiabilité met l'accent sur les charges de travail exécutant les fonctions prévues et sur la manière de se remettre rapidement en cas d'incapacité à répondre aux demandes. Les sujets clés incluent la conception de systèmes distribués, la planification de la restauration et l'adaptation à l'évolution des exigences.

Rubriques

PF 1 : Comment prenez-vous en charge les déploiements d'architecture haute disponibilité ?
REL 2 : Comment atteignez-vous vos objectifs de point de reprise (RPOs) ElastiCache ?
PF 3 : Comment répondez-vous aux exigences de reprise après sinistre (DR) ?
PF 4 : Comment planifiez-vous efficacement les basculements ?
REL 5 : Vos ElastiCache composants sont-ils conçus pour évoluer ?

PF 1 : Comment prenez-vous en charge les déploiements d'architecture haute disponibilité ?

Introduction au niveau des questions : Comprendre l'architecture de haute disponibilité d'Amazon vous ElastiCache permettra de fonctionner de manière résiliente lors d'événements de disponibilité.

Avantage au niveau des questions : l'architecture de vos ElastiCache clusters de manière à ce qu'ils soient résilients aux défaillances garantit une meilleure disponibilité de vos déploiements. ElastiCache

[Obligatoire] Déterminez le niveau de fiabilité dont vous avez besoin pour votre ElastiCache cluster. Les différentes charges de travail sont soumises à des normes de résilience différentes, qu'il s'agisse de charges de travail entièrement éphémères ou de charges de travail essentielles à la mission. Définissez les besoins pour chaque type d'environnement que vous exploitez, tel que le développement, le test et la production.

Moteur de mise en cache : ElastiCache pour Memcached ou ElastiCache pour Valkey et Redis OSS
1. ElastiCache for Memcached ne fournit aucun mécanisme de réplication et est principalement utilisé pour les charges de travail éphémères.
2. ElastiCache pour Valkey et Redis, OSS propose des fonctionnalités HA décrites ci-dessous
[Idéal] Pour les charges de travail nécessitant une haute disponibilité, utilisez-les ElastiCache en mode cluster avec un minimum de deux répliques par partition, même pour les charges de travail nécessitant un faible débit qui ne nécessitent qu'une seule partition.
1. Lorsque le mode cluster est activé, la configuration Multi-AZ est activée automatiquement.
  
  Multi-AZ minimise les interruptions en effectuant des basculements automatiques du nœud primaire vers les réplicas, en cas de maintenance planifiée ou non planifiée, et en atténuant les défaillances de la zone de disponibilité.
2. Pour les charges de travail partitionnées, un minimum de trois partitions permet une restauration plus rapide en cas de basculement, car le protocole de cluster Valkey ou Redis OSS exige que la majorité des nœuds principaux soient disponibles pour atteindre le quorum.
3. Configurez deux réplicas ou plus selon la disponibilité.
  
  Le fait de disposer de deux réplicas améliore la capacité de mise à l’échelle en lecture ainsi que la disponibilité en lecture dans les scénarios où un réplica est en cours de maintenance.
4. Utilisez des types de nœuds basés sur Graviton2 (nœuds par défaut dans la plupart des régions).
  
  ElastiCache a ajouté des performances optimisées sur ces nœuds. Vous bénéficiez ainsi de meilleures performances en termes de réplication et de synchronisation, ce qui se traduit par une disponibilité globale améliorée.
5. Surveillez et ajustez la taille pour faire face aux pics de trafic prévus : en cas de forte charge, le moteur peut ne plus répondre, ce qui affecte la disponibilité. BytesUsedForCacheet DatabaseMemoryUsagePercentage sont de bons indicateurs de votre utilisation de la mémoire, alors ReplicationLag qu'ils indiquent l'état de votre réplication en fonction de votre taux d'écriture. Vous pouvez utiliser ces métriques pour déclencher la mise à l'échelle du cluster.
6. Assurez la résilience côté client en effectuant des tests à l'aide de l'API Failover avant un événement de basculement de production.
[Ressources] :
- Configuration ElastiCache pour Redis OSS pour une meilleure disponibilité
- Haute disponibilité avec les groupes de réplication

REL 2 : Comment atteignez-vous vos objectifs de point de reprise (RPOs) ElastiCache ?

Introduction au niveau des questions : comprenez le RPO de la charge de travail pour éclairer les décisions relatives aux stratégies de ElastiCache sauvegarde et de restauration.

Avantage au niveau de la question : la mise en place d'une stratégie de RPO peut améliorer la continuité des activités en cas de scénario de reprise après sinistre. La conception de vos politiques de sauvegarde et de restauration peut vous aider à atteindre vos objectifs de point de restauration (RPO) pour vos ElastiCache données. ElastiCache propose des fonctionnalités de capture instantanée stockées dans Amazon S3, ainsi qu'une politique de conservation configurable. Ces instantanés sont pris au cours d'une fenêtre de sauvegarde définie et sont gérés automatiquement par le service. Si votre charge de travail nécessite une granularité de sauvegarde supplémentaire, vous avez la possibilité de créer jusqu'à 20 sauvegardes manuelles par jour. Les sauvegardes créées manuellement ne sont pas soumises à une politique de conservation de service et peuvent être conservées indéfiniment.

[Obligatoire] Comprenez et documentez le RPO de vos ElastiCache déploiements.
- Sachez que Memcached ne propose aucun processus de sauvegarde.
- Passez en revue les fonctionnalités de ElastiCache Backup and Restore.
[Meilleure pratique] Mettez en place un processus bien communiqué pour la sauvegarde de votre cluster.
- Lancez des sauvegardes manuelles selon vos besoins.
- Passez en revue les politiques de conservation pour les sauvegardes automatiques.
- Notez que les sauvegardes manuelles seront conservées indéfiniment.
- Planifiez vos sauvegardes automatiques pendant les périodes de faible utilisation.
- Effectuez des opérations de sauvegarde sur des réplicas en lecture afin de minimiser l'impact sur les performances du cluster.
[Bien] Tirez parti de la fonction de sauvegarde planifiée ElastiCache pour sauvegarder régulièrement vos données pendant une période définie.
- Testez régulièrement les restaurations à partir de vos sauvegardes.
[Ressources] :

PF 3 : Comment répondez-vous aux exigences de reprise après sinistre (DR) ?

Introduction au niveau des questions : La reprise après sinistre est un aspect important de toute planification de la charge de travail. ElastiCache propose plusieurs options pour mettre en œuvre la reprise après sinistre en fonction des exigences de résilience de la charge de travail. Avec Amazon ElastiCache Global Datastore, vous pouvez écrire dans votre cluster situé dans une région et disposer des données disponibles pour être lues à partir de deux autres clusters de répliques interrégionaux, ce qui permet des lectures à faible latence et une reprise après sinistre dans toutes les régions.

Avantage au niveau de la question : la compréhension et la planification de divers scénarios de sinistre peuvent garantir la continuité des activités. Les stratégies de reprise après sinistre doivent être équilibrées en termes de coût, d'impact sur les performances et de risque de perte de données.

[Obligatoire] Développez et documentez des stratégies de reprise après sinistre pour tous vos ElastiCache composants en fonction des exigences de charge de travail. ElastiCache est unique en ce sens que certains cas d'utilisation sont totalement éphémères et ne nécessitent aucune stratégie de reprise après sinistre, tandis que d'autres se situent à l'opposé et nécessitent une stratégie de reprise après sinistre extrêmement robuste. Toutes les options doivent être évaluées par rapport à l'optimisation des coûts : une meilleure résilience exige de plus grandes quantités d'infrastructure.

Découvrez les options de reprise après sinistre disponibles au niveau régional et multirégional.
- Les déploiements multi-AZ sont recommandés pour se prémunir contre les pannes de zone de disponibilité. Assurez-vous de déployer avec le mode cluster activé dans les architectures multi-AZ, avec un minimum de 3 disponibles. AZs
- L’entrepôt de données global est recommandé pour se prémunir contre les défaillances régionales.
[Meilleure pratique] Activez l’entrepôt de données global pour les charges de travail qui nécessitent une résilience au niveau de la région.
- Prévoyez un basculement vers la région secondaire en cas de dégradation du cluster principal.
- Testez le processus de basculement multirégional avant un basculement en production.
- Surveillez la métrique ReplicationLag pour comprendre l'impact potentiel de la perte de données lors des événements de basculement.
[Ressources] :

PF 4 : Comment planifiez-vous efficacement les basculements ?

Introduction au niveau des questions : L'activation du multi-AZ avec des basculements automatiques est une bonne pratique. ElastiCache Dans certains cas, ElastiCache pour Valkey et Redis, OSS remplace les nœuds principaux dans le cadre des opérations de service. Par exemple, lors d’événements de maintenance planifiée et dans le cas improbable d'une défaillance du nœud ou d’un problème avec la zone de disponibilité. La réussite d'un basculement dépend à la fois de la configuration de votre bibliothèque cliente ElastiCache et de votre bibliothèque cliente.

Avantage au niveau des questions : le respect des meilleures pratiques en matière de ElastiCache basculement en conjonction avec votre bibliothèque ElastiCache client spécifique vous permet de minimiser les temps d'arrêt potentiels lors d'événements de basculement.

[Obligatoire] Lorsque le mode cluster est désactivé, utilisez les délais d'expiration afin que vos clients détectent s'ils doivent se déconnecter de l'ancien nœud primaire et se reconnecter au nouveau nœud primaire, à l'aide de l'adresse IP du point de terminaison principal mise à jour. Lorsque le mode cluster est activé, la bibliothèque cliente est chargée de détecter les modifications de la topologie du cluster sous-jacent. Cela se fait le plus souvent par le biais des paramètres de configuration de la bibliothèque ElastiCache cliente, qui vous permettent également de configurer la fréquence et la méthode d'actualisation. Chaque bibliothèque cliente propose ses propres paramètres et des détails supplémentaires sont disponibles dans la documentation correspondante.

[Ressources] :
- Minimiser les temps d'arrêt ElastiCache pour Valkey et Redis OSS avec Multi-AZ
- Passez en revue les meilleures pratiques de votre bibliothèque ElastiCache cliente.
[Obligatoire] La réussite des basculements dépend de l'intégrité de l'environnement de réplication entre le nœud primaire et le nœud de réplica. Examinez et comprenez la nature asynchrone de la réplication Valkey et Redis OSS, ainsi que les CloudWatch mesures disponibles pour signaler le délai de réplication entre les nœuds principaux et les nœuds de réplication. Pour les cas d'utilisation nécessitant une plus grande sécurité des données, utilisez la commande WAIT pour forcer les répliques à accuser réception des écritures avant de répondre aux clients connectés.

[Ressources] :
- Métriques pour Valkey ou Redis OSS
- Surveillance des meilleures pratiques liées à ElastiCache l'utilisation d'Amazon CloudWatch
[Mieux] Validez régulièrement la réactivité de votre application lors du basculement à l'aide de l'API ElastiCache Test Failover.

[Ressources] :
- Test du basculement automatique vers une réplique en lecture sur ElastiCache
- Test du basculement automatique

REL 5 : Vos ElastiCache composants sont-ils conçus pour évoluer ?

Introduction au niveau des questions : en comprenant les capacités de mise à l'échelle et les topologies de déploiement disponibles, vos ElastiCache composants peuvent s'adapter au fil du temps pour répondre à l'évolution des exigences de charge de travail. ElastiCachepropose une mise à l'échelle à 4 voies : in/out (horizontale) et up/down (verticale).

Avantage au niveau des questions : le respect des meilleures pratiques en matière de ElastiCache déploiement garantit la plus grande flexibilité de mise à l'échelle, tout en respectant le principe Well Architected qui consiste à effectuer une mise à l'échelle horizontale afin de minimiser l'impact des défaillances.

[Obligatoire] Comprenez la différence entre les topologies « mode cluster activé » et « mode cluster désactivé ». Dans presque tous les cas, il est recommandé d’effectuer un déploiement en ayant activé le mode Cluster, car il permet de renforcer la capacité de mise à l’échelle au fil du temps. Les composants pour lesquels le mode cluster est désactivé sont limités dans leur capacité à être mis à l’échelle horizontalement en ajoutant des réplicas en lecture.
[Obligatoire] Sachez quand et comment procéder à une mise à l'échelle.
- Pour augmenter le nombre de READIOPS : ajoutez des réplicas.
- Pour augmenter le nombre de WRITEOPS : ajoutez des partitions (montée en puissance).
- Pour augmenter le nombre d'E/S sur le réseau : utilisez des instances optimisées pour le réseau, augmentez la capacité.
[Mieux] Déployez vos ElastiCache composants en activant le mode cluster, en privilégiant un plus grand nombre de nœuds plus petits plutôt qu'un nombre réduit de nœuds plus grands. Cela limite efficacement le rayon d'explosion d'une défaillance de nœud.
[Meilleure pratique] Incluez des réplicas dans vos clusters pour améliorer la réactivité lors des événements de mise à l’échelle.
[Bien] Si le mode cluster est désactivé, utilisez les répliques de lecture pour augmenter la capacité de lecture globale. ElastiCache prend en charge jusqu'à 5 répliques de lecture en mode cluster désactivée, ainsi que la mise à l'échelle verticale.
[Ressources] :
- Dimensionnement ElastiCache des clusters
- Augmentation en ligne

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Pilier Sécurité

Pilier Efficacité des performances