Pilier de fiabilité des objectifs Amazon ElastiCache Well-Architected - Amazon ElastiCache (RedisOSS)

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pilier de fiabilité des objectifs Amazon ElastiCache Well-Architected

REL1 : Comment prenez-vous en charge les déploiements d'architecture haute disponibilité (HA) ?

Introduction au niveau des questions : Comprendre l'architecture de haute disponibilité d'Amazon vous ElastiCache permettra de fonctionner de manière résiliente lors d'événements de disponibilité.

Avantage au niveau des questions : l'architecture de vos ElastiCache clusters de manière à ce qu'ils soient résilients aux défaillances garantit une meilleure disponibilité de vos déploiements. ElastiCache

  • [Obligatoire] Déterminez le niveau de fiabilité dont vous avez besoin pour votre ElastiCache cluster. Les différentes charges de travail sont soumises à des normes de résilience différentes, qu'il s'agisse de charges de travail entièrement éphémères ou de charges de travail essentielles à la mission. Définissez les besoins pour chaque type d'environnement que vous exploitez, tel que le développement, le test et la production.

    Moteur de mise en cache : ElastiCache (Memcached) vs ElastiCache (Redis) OSS

    1. ElastiCache (Memcached) ne fournit aucun mécanisme de réplication et est principalement utilisé pour les charges de travail éphémères.

    2. ElastiCache (RedisOSS) propose les fonctionnalités HA décrites ci-dessous

  • [Idéal] Pour les charges de travail nécessitant une haute disponibilité, utilisez ElastiCache (RedisOSS) en mode cluster avec un minimum de deux répliques par partition, même pour les charges de travail nécessitant un faible débit qui ne nécessitent qu'une seule partition.

    1. Lorsque le mode cluster est activé, la configuration Multi-AZ est activée automatiquement.

      Multi-AZ minimise les interruptions en effectuant des basculements automatiques du nœud primaire vers les réplicas, en cas de maintenance planifiée ou non planifiée, et en atténuant les défaillances de la zone de disponibilité.

    2. Pour les charges de travail partitionnées, un minimum de trois partitions permet une restauration plus rapide en cas de basculement, car le protocole Redis OSS Cluster exige que la majorité des nœuds principaux soient disponibles pour atteindre le quorum.

    3. Configurez deux réplicas ou plus selon la disponibilité.

      Le fait de disposer de deux réplicas améliore la capacité de mise à l’échelle en lecture ainsi que la disponibilité en lecture dans les scénarios où un réplica est en cours de maintenance.

    4. Utilisez des types de nœuds basés sur Graviton2 (nœuds par défaut dans la plupart des régions).

      ElastiCache (RedisOSS) a ajouté des performances optimisées sur ces nœuds. Vous bénéficiez ainsi de meilleures performances en termes de réplication et de synchronisation, ce qui se traduit par une disponibilité globale améliorée.

    5. Surveillez et ajustez la taille pour faire face aux pics de trafic prévus : en cas de forte charge, le moteur ElastiCache (RedisOSS) peut ne plus répondre, ce qui affecte la disponibilité. BytesUsedForCacheet DatabaseMemoryUsagePercentage sont de bons indicateurs de votre utilisation de la mémoire, alors ReplicationLag qu'ils indiquent l'état de votre réplication en fonction de votre taux d'écriture. Vous pouvez utiliser ces métriques pour déclencher la mise à l'échelle du cluster.

    6. Garantissez la résilience côté client en effectuant des tests avec le Failover API avant un événement de basculement de production.

    [Ressources] :

REL2 : Comment atteignez-vous vos objectifs en matière de points de récupération (RPOs) ElastiCache ?

Introduction au niveau des questions : Comprenez la charge de travail RPO pour prendre des décisions éclairées sur les stratégies ElastiCache de sauvegarde et de restauration.

Avantage au niveau des questions : La mise en place d'une RPO stratégie peut améliorer la continuité des activités en cas de scénario de reprise après sinistre. La conception de vos politiques de sauvegarde et de restauration peut vous aider à atteindre vos objectifs de point de restauration (RPO) pour vos ElastiCache données. ElastiCache (RedisOSS) propose des fonctionnalités de capture instantanée stockées dans Amazon S3, ainsi qu'une politique de conservation configurable. Ces instantanés sont pris au cours d'une fenêtre de sauvegarde définie et sont gérés automatiquement par le service. Si votre charge de travail nécessite une granularité de sauvegarde supplémentaire, vous avez la possibilité de créer jusqu'à 20 sauvegardes manuelles par jour. Les sauvegardes créées manuellement ne sont pas soumises à une politique de conservation de service et peuvent être conservées indéfiniment.

  • [Obligatoire] Comprenez et documentez RPO vos ElastiCache déploiements.

    • Sachez que Memcached ne propose aucun processus de sauvegarde.

    • Passez en revue les fonctionnalités de ElastiCache Backup and Restore.

  • [Meilleure pratique] Mettez en place un processus bien communiqué pour la sauvegarde de votre cluster.

    • Lancez des sauvegardes manuelles selon vos besoins.

    • Passez en revue les politiques de conservation pour les sauvegardes automatiques.

    • Notez que les sauvegardes manuelles seront conservées indéfiniment.

    • Planifiez vos sauvegardes automatiques pendant les périodes de faible utilisation.

    • Effectuez des opérations de sauvegarde sur des réplicas en lecture afin de minimiser l'impact sur les performances du cluster.

  • [Bien] Tirez parti de la fonction de sauvegarde planifiée ElastiCache pour sauvegarder régulièrement vos données pendant une période définie.

    • Testez régulièrement les restaurations à partir de vos sauvegardes.

  • [Ressources] :

REL3 : Comment répondez-vous aux exigences de reprise après sinistre (DR) ?

Introduction au niveau des questions : La reprise après sinistre est un aspect important de toute planification de la charge de travail. ElastiCache (RedisOSS) propose plusieurs options pour mettre en œuvre la reprise après sinistre en fonction des exigences de résilience de la charge de travail. Avec Amazon ElastiCache Global Datastore, vous pouvez écrire dans votre cluster ElastiCache (RedisOSS) situé dans une région et disposer des données pouvant être lues à partir de deux autres clusters de répliques interrégionaux, ce qui permet des lectures à faible latence et une reprise après sinistre dans toutes les régions.

Avantage au niveau de la question : la compréhension et la planification de divers scénarios de sinistre peuvent garantir la continuité des activités. Les stratégies de reprise après sinistre doivent être équilibrées en termes de coût, d'impact sur les performances et de risque de perte de données.

  • [Obligatoire] Développez et documentez des stratégies de reprise après sinistre pour tous vos ElastiCache composants en fonction des exigences de charge de travail. ElastiCache est unique en ce sens que certains cas d'utilisation sont totalement éphémères et ne nécessitent aucune stratégie de reprise après sinistre, tandis que d'autres se situent à l'opposé et nécessitent une stratégie de reprise après sinistre extrêmement robuste. Toutes les options doivent être évaluées par rapport à l'optimisation des coûts : une meilleure résilience exige de plus grandes quantités d'infrastructure.

    Découvrez les options de reprise après sinistre disponibles au niveau régional et multirégional.

    • Les déploiements multi-AZ sont recommandés pour se prémunir contre les pannes de zone de disponibilité. Assurez-vous de déployer avec le mode cluster activé dans les architectures multi-AZ, avec un minimum de 3 disponibles. AZs

    • L’entrepôt de données global est recommandé pour se prémunir contre les défaillances régionales.

  • [Meilleure pratique] Activez l’entrepôt de données global pour les charges de travail qui nécessitent une résilience au niveau de la région.

    • Prévoyez un basculement vers la région secondaire en cas de dégradation du cluster principal.

    • Testez le processus de basculement multirégional avant un basculement en production.

    • Surveillez la métrique ReplicationLag pour comprendre l'impact potentiel de la perte de données lors des événements de basculement.

  • [Ressources] :

REL4 : Comment planifiez-vous efficacement les basculements ?

Introduction au niveau des questions : L'activation du multi-AZ avec des basculements automatiques est une bonne pratique. ElastiCache Dans certains cas, ElastiCache (RedisOSS) remplace les nœuds principaux dans le cadre des opérations de service. Par exemple, lors d’événements de maintenance planifiée et dans le cas improbable d'une défaillance du nœud ou d’un problème avec la zone de disponibilité. La réussite d'un basculement dépend à la fois de la configuration de votre bibliothèque cliente ElastiCache et de votre bibliothèque cliente.

Avantage au niveau des questions : le respect des meilleures pratiques en matière de ElastiCache basculement en conjonction avec votre bibliothèque cliente spécifique ElastiCache (RedisOSS) vous permet de minimiser les temps d'arrêt potentiels lors d'événements de basculement.

  • [Obligatoire] Lorsque le mode cluster est désactivé, utilisez les délais d'expiration afin que vos clients détectent s'ils doivent se déconnecter de l'ancien nœud primaire et se reconnecter au nouveau nœud primaire, à l'aide de l'adresse IP du point de terminaison principal mise à jour. Lorsque le mode cluster est activé, la bibliothèque cliente est chargée de détecter les modifications de la topologie du cluster sous-jacent. Cela se fait le plus souvent par le biais des paramètres de configuration de la bibliothèque cliente ElastiCache (RedisOSS), qui vous permettent également de configurer la fréquence et la méthode d'actualisation. Chaque bibliothèque cliente propose ses propres paramètres et des détails supplémentaires sont disponibles dans la documentation correspondante.

    [Ressources] :

  • [Obligatoire] La réussite des basculements dépend de l'intégrité de l'environnement de réplication entre le nœud primaire et le nœud de réplica. Passez en revue et comprenez la nature asynchrone de la OSS réplication Redis, ainsi que les CloudWatch mesures disponibles pour signaler le délai de réplication entre les nœuds principaux et les nœuds de réplication. Pour les cas d'utilisation nécessitant une plus grande sécurité des données, utilisez la OSS WAIT commande Redis pour forcer les répliques à accuser réception des écritures avant de répondre aux clients connectés.

    [Ressources] :

  • [Mieux] Validez régulièrement la réactivité de votre application lors du basculement à l'aide du ElastiCache Test Failover. API

    [Ressources] :

REL5 : Vos ElastiCache composants sont-ils conçus pour évoluer ?

Introduction au niveau des questions : en comprenant les capacités de mise à l'échelle et les topologies de déploiement disponibles, vos ElastiCache composants peuvent s'adapter au fil du temps pour répondre à l'évolution des exigences de charge de travail. ElastiCacheoffre une mise à l'échelle à 4 voies : entrée/sortie (horizontale) et haut/bas (verticale).

Avantage au niveau des questions : le respect des meilleures pratiques en matière de ElastiCache déploiement garantit la plus grande flexibilité de mise à l'échelle, tout en respectant le principe Well Architected qui consiste à effectuer une mise à l'échelle horizontale afin de minimiser l'impact des défaillances.

  • [Obligatoire] Comprenez la différence entre les topologies « mode cluster activé » et « mode cluster désactivé ». Dans presque tous les cas, il est recommandé d’effectuer un déploiement en ayant activé le mode Cluster, car il permet de renforcer la capacité de mise à l’échelle au fil du temps. Les composants pour lesquels le mode cluster est désactivé sont limités dans leur capacité à être mis à l’échelle horizontalement en ajoutant des réplicas en lecture.

  • [Obligatoire] Sachez quand et comment procéder à une mise à l'échelle.

    • Pour en savoir plus READIOPS : ajoutez des répliques

    • Pour en savoir plus WRITEOPS : ajoutez des fragments (redimensionnez)

    • Pour augmenter le nombre d'E/S sur le réseau : utilisez des instances optimisées pour le réseau, augmentez la capacité.

  • [Mieux] Déployez vos ElastiCache composants en activant le mode cluster, en privilégiant un plus grand nombre de nœuds plus petits plutôt qu'un nombre réduit de nœuds plus grands. Cela limite efficacement le rayon d'explosion d'une défaillance de nœud.

  • [Meilleure pratique] Incluez des réplicas dans vos clusters pour améliorer la réactivité lors des événements de mise à l’échelle.

  • [Bien] Si le mode cluster est désactivé, utilisez les répliques de lecture pour augmenter la capacité de lecture globale. ElastiCache prend en charge jusqu'à 5 répliques de lecture en mode cluster désactivée, ainsi que la mise à l'échelle verticale.

  • [Ressources] :