Préparer - AWS Well-Architected Framework

Préparer

Pour vous préparer à l'excellence opérationnelle, il est nécessaire de comprendre vos charges de travail et les comportements attendus. Vous pourrez ensuite les concevoir pour fournir des informations sur leur statut et créer les procédures nécessaires pour les prendre en charge.

Concevez votre charge de travail de manière à ce qu'elle vous fournisse les informations nécessaires pour comprendre son état interne (par exemple, les mesures, les journaux, les événements et les traces) dans tous ses composants à des fins d'observation et de résolution des problèmes. L'observabilité va au-delà de la simple surveillance. Elle fournit une compréhension complète du fonctionnement interne d'un système sur la base de ses résultats externes. Enracinée dans les métriques, les journaux et les données de suivi, l'observabilité propose des informations approfondies sur le comportement et la dynamique du système. Grâce à une observabilité efficace, les équipes peuvent identifier les modèles, les anomalies et les tendances, ce qui leur permet de résoudre les problèmes potentiels de manière proactive et de maintenir un état optimal du système. L'identification des indicateurs clés de performance (KPI) est essentielle pour garantir l'alignement entre les activités de surveillance et les objectifs commerciaux. Cet alignement garantit que les équipes prennent des décisions basées sur les données en utilisant des indicateurs réellement importants, optimisant à la fois les performances du système et les résultats commerciaux. En outre, l'observabilité permet aux entreprises d'être proactives plutôt que réactives. Les équipes peuvent comprendre les relations de cause à effet au sein de leurs systèmes, prévoir et prévenir les problèmes au lieu de simplement y réagir. À mesure que les charges de travail évoluent, il est essentiel de revoir et d'affiner la stratégie d'observabilité, afin de s'assurer qu'elle reste pertinente et efficace.

Adoptez des approches qui améliorent le flux des changements en production et qui permettent la restructuration, un retour d'information rapide sur la qualité et la correction des bugs. Ces approches accélèrent l'entrée des modifications bénéfiques dans l'environnement de production, limitent les problèmes déployés et permettent d'identifier et de corriger rapidement les problèmes introduits par les activités de déploiement ou découverts dans vos environnements.

Adoptez des approches qui fournissent un retour d'information rapide sur la qualité et permettent une reprise rapide à la suite de changements qui n'offrent pas les résultats escomptés. L'utilisation de ces pratiques diminue l'impact des problèmes découlant du déploiement des modifications. Prévoyez les modifications qui échouent afin de pouvoir réagir plus rapidement si nécessaire, et testez et validez les changements que vous apportez. Tenez compte des activités planifiées dans vos environnements afin de pouvoir gérer le risque des modifications affectant les activités planifiées. Mettez l'accent sur les modifications fréquentes, minimes et réversibles pour limiter leur portée. Ainsi, vous facilitez la résolution des problèmes et les corrections avec la possibilité d'annuler une modification. Cela signifie également que vous pouvez tirer profit plus souvent de modifications importantes.

Évaluez l'état de préparation opérationnelle de votre charge de travail, de vos processus, de vos procédures et de votre personnel afin de comprendre les risques opérationnels liés à votre charge de travail. Utilisez un processus cohérent (y compris des listes de contrôle manuelles ou automatisées) pour déterminer quand vous êtes prêt à mettre en service votre charge de travail ou un changement. Cela vous permet également d'identifier tous les domaines d'amélioration nécessaire. Dotez-vous de runbooks qui documentent vos activités de routine, et de playbooks qui guident vos processus pour la résolution des problèmes.. Déterminez les avantages et les risques afin de prendre des décisions éclairées pour autoriser les changements dans l'environnement de production.

AWS vous permet de visualiser l'ensemble de votre charge de travail (applications, infrastructure, politique, gouvernance et opérations) en tant que code. Cela signifie que vous pouvez appliquer la même discipline d'ingénierie que celle que vous utilisez pour le code d'application à chaque élément de votre pile et partager ces éléments entre les équipes ou les organisations afin d'amplifier les avantages des efforts de développement. Utilisez les opérations en tant que code dans le cloud et testez-les en toute sécurité pour développer votre charge de travail, vos procédures d'opérations et la pratique de l'échec. L'utilisation de AWS CloudFormation vous permet de disposer d'environnements de développement, de test et de production cohérents et modélisés, avec des niveaux de contrôle des opérations toujours plus élevés.

Les questions suivantes sont axées sur ces quelques considérations relatives à l'excellence opérationnelle.

OPS 4:  How do you implement observability in your workload?
Implement observability in your workload so that you can understand its state and make data-driven decisions based on business requirements.
OPS 5:  How do you reduce defects, ease remediation, and improve flow into production?
Adopt approaches that improve flow of changes into production that achieve refactoring fast feedback on quality, and bug fixing. These accelerate beneficial changes entering production, limit issues deployed, and achieve rapid identification and remediation of issues introduced through deployment activities.
OPS 6:  How do you mitigate deployment risks?
Adopt approaches that provide fast feedback on quality and achieve rapid recovery from changes that do not have desired outcomes. Using these practices mitigates the impact of issues introduced through the deployment of changes.
OPS 7:  How do you know that you are ready to support a workload?
Evaluate the operational readiness of your workload, processes and procedures, and personnel to understand the operational risks related to your workload.

Investissez dans la mise en œuvre des activités opérationnelles en tant que code pour maximiser la productivité du personnel opérationnel, minimiser les taux d'erreur et automatiser les réponses. Adoptez des « pre-mortems » pour anticiper les échecs, et créez des procédures si nécessaire. Appliquez des métadonnées à l'aide des balises de ressource et de AWS Resource Groups en suivant une stratégie de balisage cohérente pour permettre l'identification de vos ressources. Balisez vos ressources pour l'organisation, la comptabilité analytique, les contrôles d'accès et le ciblage de l'exécution des activités d'opérations automatisées. Adoptez des pratiques de déploiement qui tirent parti de l'élasticité du cloud pour faciliter les activités de développement, et le pré-déploiement des systèmes pour accélérer les mises en œuvre. Lorsque vous apportez des modifications aux listes de contrôle que vous utilisez pour évaluer votre charge de travail, planifiez les opérations que vous allez exécuter pour les systèmes en service qui ne sont plus conformes.