Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
REL13-BP05 Automatiser la reprise
Mettez en œuvre des mécanismes de reprise testés et automatisés, à la fois fiables, observables et reproductibles afin de réduire le risque et l’impact sur l’activité d’une panne.
Résultat escompté : vous avez mis en œuvre un flux de travail d’automatisation bien documenté, standardisé et entièrement testé pour les processus de récupération. L’automatisation de la récupération corrige automatiquement les problèmes mineurs qui présentent un faible risque d’indisponibilité ou de perte de données. Vous êtes en mesure d’invoquer rapidement des processus de récupération pour des incidents graves, d’observer le comportement de correction pendant leur fonctionnement et de mettre fin aux processus si vous observez des situations dangereuses ou des défaillances.
Anti-modèles courants :
-
Dans le cadre de votre plan de reprise, vous dépendez de composants ou de mécanismes défaillants ou dégradés.
-
Vos processus de récupération nécessitent une intervention manuelle, telle que l’accès à la console (également appelé ClickOps).
-
Vous lancez automatiquement les procédures de récupération dans les situations présentant un risque élevé d’indisponibilité ou de perte de données.
-
Vous omettez d’inclure un mécanisme permettant d’annuler une procédure de récupération (comme un système Andon ou un bouton d’arrêt d’urgence) qui ne fonctionne pas ou qui présente des risques supplémentaires.
Avantages liés au respect de cette bonne pratique :
-
Fiabilité, prévisibilité et cohérence accrues des opérations de récupération.
-
Capacité à atteindre des objectifs de reprise plus stricts, notamment l’objectif de délai de reprise (RTO) et l’objectif de point de reprise (RPO).
-
Diminution du risque d’échec de la récupération lors d’un incident.
-
Réduction du risque d’échec associé aux processus de récupération manuels susceptibles de provoquer des erreurs humaines.
Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : moyen
Directives d’implémentation
Pour mettre en œuvre la restauration automatique, vous avez besoin d’une approche globale qui utilise les services et les bonnes pratiques AWS. Pour commencer, identifiez les composants critiques et les points de défaillance potentiels de votre charge de travail. Développez des processus automatisés capables de récupérer vos charges de travail et vos données en cas de panne sans intervention humaine.
Développez l’automatisation de la récupération en utilisant les principes de l’infrastructure en tant que code (IaC). Cela rend votre environnement de récupération cohérent avec l’environnement source et permet de contrôler la version de vos processus de récupération. Pour orchestrer des flux de travail de récupération complexes, envisagez des solutions telles que AWS Systems Manager Automations ou AWS Step Functions
L’automatisation des processus de récupération présente des avantages considérables et peut vous aider à atteindre plus facilement votre objectif de délai de reprise (RTO) et votre objectif de point de reprise (RPO). Toutefois, vous pouvez rencontrer des situations inattendues susceptibles de provoquer un échec ou de créer de nouveaux risques, tels qu’une durée d’indisponibilité et une perte de données supplémentaires. Pour atténuer ce risque, offrez la possibilité d’arrêter rapidement une automatisation de récupération en cours. Une fois celle-ci arrêtée, vous pouvez enquêter et prendre des mesures correctives.
Pour les charges de travail prises en charge, envisagez des solutions telles qu’AWS Elastic Disaster Recovery (AWS DRS) pour fournir un basculement automatisé. AWS DRS réplique en continu vos machines (notamment le système d’exploitation, la configuration d’état du système, les bases de données, les applications et les fichiers) dans une zone intermédiaire de votre Compte AWS cible et de votre région préférée. En cas d’incident, AWS DRS automatise la conversion de vos serveurs répliqués en charges de travail entièrement provisionnées dans votre région de récupération sur AWS.
La maintenance et l’amélioration de la récupération automatisée sont un processus continu. Testez et affinez continuellement vos procédures de récupération sur la base des enseignements acquis, et tenez-vous au fait des nouveaux services et fonctionnalités AWS susceptibles d’améliorer vos capacités de récupération.
Étapes d’implémentation
-
Planifier une récupération automatisée
-
Réalisez un examen approfondi de l’architecture, des composants et des dépendances de votre charge de travail afin d’identifier et de planifier des mécanismes de récupération automatisés. Classez les dépendances de votre charge de travail en dépendances strictes et souples. Les dépendances strictes sont celles sans lesquelles la charge de travail ne peut pas fonctionner et que rien ne peut substituer. Les dépendances souples sont celles que la charge de travail utilise habituellement, mais qui peuvent être remplacées par des systèmes ou des processus de substitution temporaires ou qui peuvent être traitées par une dégradation appropriée.
-
Établissez des processus pour identifier et récupérer les données manquantes ou corrompues.
-
Définissez les étapes permettant de confirmer le rétablissement d’un état stable après l’exécution des actions de récupération.
-
Envisagez toutes les actions nécessaires pour préparer le système récupéré à être pleinement opérationnel, telles que la préparation et le remplissage des caches.
-
Tenez compte des problèmes susceptibles d’être rencontrés au cours du processus de récupération et de la manière de les détecter et de les corriger.
-
Envisagez des scénarios dans lesquels le site principal et son plan de contrôle sont inaccessibles. Vérifiez que les actions de récupération peuvent être effectuées indépendamment, sans avoir recours au site principal. Envisagez des solutions telles qu’Amazon Application Recovery Controller (ARC)
pour rediriger le trafic sans qu’il soit nécessaire de muter manuellement les enregistrements DNS.
-
-
Développer un processus de récupération automatisé
-
Mettez en œuvre des mécanismes automatisés de détection des pannes et de basculement pour une récupération sans intervention manuelle. Créez des tableaux de bord avec des outils tels qu’Amazon CloudWatch
pour rendre compte de la progression et de l’état des procédures de récupération automatisées. Incluez des procédures pour valider la réussite de la récupération. Fournissez un mécanisme permettant d’annuler une récupération en cours. -
Créez des playbooks comme processus de secours pour les pannes qui ne permettent pas une récupération automatique, et tenez compte de votre plan de reprise après sinistre
. -
Testez les processus de récupération comme indiqué dans le document REL13-BP03.
-
-
Préparer la récupération
-
Évaluez l’état de votre site de reprise et déployez-y les composants stratégiques à l’avance. Pour plus de détails, consultez REL13-BP04.
-
Définissez des rôles, des responsabilités et des processus décisionnels clairs pour les opérations de récupération, en impliquant les parties prenantes et les équipes sur l’ensemble de l’organisation.
-
Définissez les conditions pour lancer vos processus de récupération.
-
Créez un plan pour annuler le processus de récupération et revenir à votre site principal si nécessaire ou une fois que celui-ci est considéré comme sûr.
-
Ressources
Bonnes pratiques associées :
-
REL07-BP01 Utiliser l’automatisation lors de l’obtention des ressources ou de leur mise à l’échelle
-
REL11-BP01 Surveiller tous les composants de la charge de travail pour détecter les défaillances
-
REL13-BP02 Utiliser des stratégies de reprise définies pour répondre aux objectifs de reprise
-
REL13-BP03 Effectuer un test de validation de la mise en œuvre de la reprise après sinistre
Documents connexes :
-
Disaster Recovery of Workloads on AWS: Recovery in the Cloud (AWS Whitepaper)
-
Création de dossiers d¦exploitation AWS Systems Manager Automation à l’aide d’AWS CDK
-
AWS Marketplace : produits pouvant être utilisés pour la reprise après sinistre
-
Utilisation d’Elastic Disaster Recovery pour le basculement et le failback
-
Partenaire APN : partenaires pouvant faciliter la reprise après sinistre
Vidéos connexes :