Préparation - AWS Well-Architected Framework

Préparation

Pour vous préparer à l’excellence opérationnelle, il est nécessaire de comprendre vos charges de travail et les comportements attendus. Vous pourrez ensuite les concevoir pour fournir des informations sur leur statut et créer les procédures nécessaires pour les prendre en charge.

Concevez votre charge de travail de manière à ce qu’elle vous fournisse les informations nécessaires pour comprendre son état interne (par exemple, les mesures, les journaux, les événements et les traces) dans tous ses composants à des fins d’observation et de résolution des problèmes. L’observabilité va au-delà de la simple surveillance. Elle fournit une compréhension complète du fonctionnement interne d’un système sur la base de ses résultats externes. Enracinée dans les métriques, les journaux et les données de suivi, l’observabilité propose des informations approfondies sur le comportement et la dynamique du système. Grâce à une observabilité efficace, les équipes peuvent identifier les modèles, les anomalies et les tendances, ce qui leur permet de résoudre les problèmes potentiels de manière proactive et de maintenir un état optimal du système. L’identification des indicateurs clés de performance (KPI) est essentielle pour garantir l’alignement entre les activités de surveillance et les objectifs commerciaux. Cet alignement garantit que les équipes prennent des décisions basées sur les données en utilisant des indicateurs réellement importants, optimisant à la fois les performances du système et les résultats commerciaux. En outre, l’observabilité permet aux entreprises d’être proactives plutôt que réactives. Les équipes peuvent comprendre les relations de cause à effet au sein de leurs systèmes, prévoir et prévenir les problèmes au lieu de simplement y réagir. À mesure que les charges de travail évoluent, il est essentiel de revoir et d’affiner la stratégie d’observabilité, afin de s’assurer qu’elle reste pertinente et efficace.

Adoptez des approches qui améliorent le flux des changements en production et qui permettent la restructuration, un retour d’information rapide sur la qualité et la correction des bugs. Ces approches accélèrent l’entrée des modifications bénéfiques dans l’environnement de production, limitent les problèmes déployés et permettent d’identifier et de corriger rapidement les problèmes introduits par les activités de déploiement ou découverts dans vos environnements.

Adoptez des approches qui fournissent un retour d’information rapide sur la qualité et permettent une reprise rapide à la suite de changements qui n’offrent pas les résultats escomptés. L’utilisation de ces pratiques diminue l’impact des problèmes découlant du déploiement des modifications. Prévoyez les modifications qui échouent afin de pouvoir réagir plus rapidement si nécessaire, et testez et validez les changements que vous apportez. Tenez compte des activités planifiées dans vos environnements afin de pouvoir gérer le risque des modifications affectant les activités planifiées. Mettez l’accent sur les modifications fréquentes, minimes et réversibles pour limiter leur portée. Ainsi, vous facilitez la résolution des problèmes et les corrections avec la possibilité d’annuler une modification. Cela signifie également que vous pouvez tirer profit plus souvent de modifications importantes.

Évaluez l’état de préparation opérationnelle de votre charge de travail, de vos processus, de vos procédures et de votre personnel afin de comprendre les risques opérationnels liés à votre charge de travail. Utilisez un processus cohérent (y compris des listes de contrôle manuelles ou automatisées) pour déterminer quand vous êtes prêt à mettre en service votre charge de travail ou un changement. Cela vous permet également d’identifier tous les domaines d’amélioration nécessaire. Dotez-vous de dossiers d’exploitation qui documentent vos activités de routine, et de playbooks qui guident vos processus pour la résolution des problèmes.. Déterminez les avantages et les risques afin de prendre des décisions éclairées pour autoriser les changements dans l’environnement de production.

AWS vous permet de visualiser l’ensemble de votre charge de travail (applications, infrastructure, politique, gouvernance et opérations) en tant que code. Cela signifie que vous pouvez appliquer la même discipline d’ingénierie que celle que vous utilisez pour le code d’application à chaque élément de votre pile et partager ces éléments entre les équipes ou les organisations afin d’amplifier les avantages des efforts de développement. Utilisez les opérations en tant que code dans le cloud et testez-les en toute sécurité pour développer votre charge de travail, vos procédures opérationnelles et la pratique de l’échec. L’utilisation de AWS CloudFormation vous permet de disposer d’environnements de développement, de test et de production cohérents et modélisés, avec des niveaux de contrôle des opérations toujours plus élevés.

Les questions suivantes sont axées sur ces quelques considérations relatives à l’excellence opérationnelle.

OPS 4 : Comment mettre en œuvre l’observabilité dans votre charge de travail ?
Intégrez l’observabilité à votre charge de travail afin de comprendre son état et de prendre des décisions basées sur les données en fonction des exigences de l’entreprise.
OPS 5 : Comment réduire les défauts, faciliter les corrections et améliorer le flux dans la production ?
Adoptez des approches qui améliorent l’entrée des modifications en production et qui permettent la refactorisation, un retour rapide sur la qualité et la correction de bogues. Cela permet d’accélérer l’entrée des modifications bénéfiques en production, de limiter le déploiement de problèmes et d’identifier et de corriger rapidement les problèmes introduits par les activités de déploiement.
OPS 6 : Comment réduire les risques liés au déploiement ?
Adoptez des approches qui fournissent un retour d’information rapide sur la qualité et permettent une reprise rapide à la suite de changements qui n’offrent pas les résultats escomptés. L’utilisation de ces pratiques diminue l’impact des problèmes découlant du déploiement des modifications.
OPS 7 : Comment savoir si vous êtes prêt à gérer une charge de travail ?
Évaluez la disponibilité opérationnelle de votre charge de travail, des processus et des procédures, ainsi que le personnel pour comprendre les risques opérationnels liés à votre charge de travail.

Investissez dans la mise en œuvre des activités opérationnelles en tant que code pour maximiser la productivité du personnel opérationnel, minimiser les taux d’erreur et automatiser les réponses. Adoptez des « pre-mortems » pour anticiper les défaillances, et créez des procédures si nécessaire. Appliquez des métadonnées à l’aide des balises de ressource et de AWS Resource Groups en suivant une stratégie de balisage cohérente pour permettre l’identification de vos ressources. Balisez vos ressources pour l’organisation, la comptabilité analytique, les contrôles d’accès et le ciblage de l’exécution des activités d’opérations automatisées. Adoptez des pratiques de déploiement qui tirent parti de l’élasticité du cloud pour faciliter les activités de développement, et le pré-déploiement des systèmes pour accélérer les mises en œuvre. Lorsque vous apportez des modifications aux listes de contrôle que vous utilisez pour évaluer votre charge de travail, planifiez les opérations que vous allez exécuter pour les systèmes en service qui ne sont plus conformes.