Principes de conception - AWS Well-Architected Framework

Principes de conception

Il existe cinq principes de conception pour la fiabilité dans le cloud :

  • Reprise automatique après une panne : en contrôlant les indicateurs de performance clés (KPI) d'une charge de travail, vous pouvez déclencher l'automatisation en cas de dépassement d'un seuil. Ces KPI doivent couvrir la valeur commerciale et non des aspects techniques du fonctionnement du service. Cela permet la création de notifications automatiques, le suivi des pannes et l'exécution de processus de récupération automatique qui contournent ou corrigent les pannes. Une automatisation plus sophistiquée rend possible l'anticipation et la correction des pannes avant qu'elles ne se produisent.

  • Test des procédures de reprise : dans un environnement sur site, des tests sont souvent nécessaires pour prouver que la charge de travail fonctionne dans un scénario particulier. Ces tests ne sont généralement pas utilisés pour valider les stratégies de récupération. Dans le cloud, vous pouvez tester de quelle façon votre charge de travail cesse de fonctionner et valider vos procédures de récupération. Vous pouvez utiliser l'automatisation pour simuler différentes pannes ou recréer les scénarios qui ont déjà conduit à des pannes. Cette approche permet de réduire les risques en exposant les chemins de défaillance que vous pouvez tester et corriger avant qu'un scénario de défaillance réelle ne se produise.

  • Mise à l'échelle horizontale pour augmenter la disponibilité de la charge de travail agrégée : remplacez une ressource volumineuse par plusieurs petites ressources pour réduire l'impact d'une panne unique sur la charge de travail globale. Répartissez les demandes entre plusieurs ressources plus petites pour garantir qu'elles ne partagent pas un point de panne commun.

  • Une capacité réellement adaptée à vos besoins : une cause courante de défaillance des charges de travail sur site est la saturation des ressources, c'est-à-dire lorsque les demandes imposées à une charge de travail dépassent la capacité de cette dernière (c'est souvent l'objectif des attaques par déni de service). Dans le cloud, vous pouvez contrôler la demande et l'utilisation de la charge de travail. Vous pouvez aussi automatiser l'ajout ou la suppression de ressources afin de maintenir le niveau optimal de satisfaction de la demande sans surallocation ou sous-allocation. Des limites demeurent, mais certains quotas peuvent être contrôlés et d'autres gérés (consultez Gestion des Service Quotas et contraintes de service).

  • Gestion des modifications de l'automatisation : les modifications apportées à votre infrastructure doivent être faites à l'aide de l'automatisation. Les modifications qui doivent être gérées incluent celles apportées à l'automatisation et qui peuvent ensuite être suivies et vérifiées.