Gestion des défaillances - AWS Framework Well-Architected

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Gestion des défaillances

Des pannes peuvent survenir dans tous les systèmes présentant un niveau de complexité raisonnable. Pour que votre charge de travail soit fiable, vous devez avoir connaissance des défaillances au moment où elles se produisent et prendre des mesures pour éviter qu’elles aient un impact sur la disponibilité. Les charges de travail doivent être en mesure de résister aux défaillances et de résoudre automatiquement les problèmes.

Avec AWS, vous pouvez tirer parti de l'automatisation pour réagir aux données de surveillance. Par exemple, lorsqu’une métrique particulière franchit un seuil, vous pouvez lancer une action automatique pour corriger le problème. De même, plutôt que de tenter de diagnostiquer et de corriger une ressource défaillante qui fait partie de votre environnement de production, vous pouvez la remplacer par une nouvelle ressource et exécuter l’analyse de cette ressource hors production. Comme le cloud vous permet de maintenir les versions temporaires d’un système complet à bas coût, vous pouvez utiliser les tests automatiques pour vérifier les processus complets de récupération.

Les questions suivantes sont axées sur ces quelques considérations relatives à la fiabilité.

REL9 : Comment sauvegardez-vous les données ?
Sauvegardez les données, les applications et la configuration conformément à vos exigences en matière d'objectifs de temps de restauration (RTO) et d'objectifs de point de restauration (RPO).
REL10 : Comment utilisez-vous l'isolation des pannes pour protéger votre charge de travail ?
Les périmètres d’isolation des pannes limitent l’effet d’une panne au sein d’une charge de travail à un nombre limité de composants. Les composants situés en dehors du périmètre ne sont pas affectés par la défaillance. En utilisant plusieurs périmètres d’isolation des pannes, vous pouvez limiter l’impact sur votre charge de travail.
REL11 : Comment concevez-vous votre charge de travail pour résister aux défaillances des composants ?
Les charges de travail nécessitant une haute disponibilité et un faible temps moyen de restauration (MTTR) doivent être conçues dans un souci de résilience.
REL12 : Comment testez-vous la fiabilité ?
Une fois que vous avez conçu votre charge de travail pour qu’elle soit résiliente aux sollicitations de la production, les tests sont le seul moyen de s’assurer qu’elle fonctionne comme prévu et d’obtenir la résilience voulue.
REL13 : Comment planifiez-vous la reprise après sinistre (DR) ?
La mise en place de sauvegardes et de composants de charge de travail redondants constitue le début de votre stratégie de DR. RTOet RPO sont vos objectifs pour le rétablissement de votre charge de travail. Définissez-les en fonction des besoins de l’entreprise. Mettez en œuvre une stratégie pour atteindre ces objectifs, en particulier en tenant compte de l’emplacement et de la fonction des données et des ressources de charge de travail. La probabilité d’une perturbation et le coût de la reprise sont également des facteurs clés qui permettent de déterminer la valeur opérationnelle de la reprise après sinistre d’une charge de travail.

Sauvegardez régulièrement vos données et testez vos fichiers de sauvegarde pour vérifier que vous pouvez récupérer après des erreurs logiques ou physiques. La clé de la gestion des pannes réside dans des tests réguliers et automatiques des charges de travail afin de créer des pannes, et dans l’observation de la façon dont ces charges reprennent. Effectuez ces opérations régulièrement et vérifiez que de tels tests sont également lancés après des modifications significatives de la charge de travail. Suivez activementKPIs, ainsi que l'objectif de temps de reprise (RTO) et l'objectif du point de reprise (RPO), afin d'évaluer la résilience d'une charge de travail (en particulier dans le cadre de scénarios de test de défaillance). Le suivi vous KPIs aidera à identifier et à atténuer les points de défaillance uniques. L’objectif est de tester intégralement vos processus de reprise de charge de travail de telle sorte que vous soyez assuré de récupérer l’ensemble de vos données et de continuer à servir vos clients, même en présence de problèmes persistants. Vos processus de reprise doivent être aussi bien maîtrisés que vos processus de production habituels.