Exploiter - AWS Well-Architected Framework

Exploiter

L'observabilité vous permet de vous concentrer sur les données pertinentes et de comprendre les interactions et les résultats de votre charge de travail. En vous concentrant sur les informations essentielles et en éliminant les données inutiles, vous maintenez une approche simple pour comprendre les performances des charges de travail. Il est essentiel non seulement de collecter des données, mais également de les interpréter correctement. Définissez des bases de référence claires, spécifiez des seuils d'alerte appropriés et surveillez activement tout écart. Un changement au niveau d'une métrique clé, en particulier lorsqu'elle est corrélée à d'autres données, contribue à identifier des problèmes spécifiques. Grâce à l'observabilité, vous êtes mieux équipé pour prévoir et relever les défis potentiels, veillant ainsi à ce que votre charge de travail fonctionne sans heurts et réponde aux besoins de l'entreprise.

Le bon fonctionnement d'une charge de travail se mesure à l'aune des résultats obtenus par les entreprises et les clients. Définissez les résultats attendus, déterminez comment le succès sera mesuré et identifiez les paramètres qui seront utilisés dans ces calculs pour déterminer le succès de votre charge de travail et des opérations. L'état opérationnel comprend à la fois l'état de la charge de travail et l'état et le succès des activités opérationnelles menées pour soutenir la charge de travail (par exemple, déploiement et réponse aux incidents). Établissez des métriques de référence pour l'amélioration, l'investigation et l'intervention, collectez et analysez vos métriques, puis validez votre compréhension du succès des opérations et de leur évolution dans le temps. Utilisez les métriques collectées pour déterminer si vous satisfaites vos clients et vos besoins commerciaux, et pour identifier les points à améliorer.

Une efficacité opérationnelle et une gestion efficace des événements sont requises pour atteindre une excellence opérationnelle. Cela s'applique à la fois aux événements opérationnels planifiés et imprévus. Utilisez les runbooks établis pour les événements bien compris, et utilisez les playbooks pour faciliter l'investigation et la résolution des problèmes. Prioriser les réponses aux événements en fonction de leur impact sur l'entreprise et les clients. Assurez-vous que, si une alerte est générée en réponse à un événement, il existe un processus associé à exécuter, avec un propriétaire spécifiquement identifié. Définissez à l'avance le personnel requis pour résoudre un événement et inclure des processus de remontée pour engager du personnel supplémentaire, si nécessaire, en fonction de l'urgence et de l'impact. Identifiez et engagez des personnes habilitées à prendre une décision sur les mesures à prendre lorsqu'une réponse à un événement non traité auparavant a un impact opérationnel.

Communiquez l'état opérationnel des charges de travail au moyen de tableaux de bord et de notifications adaptés au public cible (par exemple, clients, entreprises, développeurs, opérations) afin qu'il puisse prendre les mesures appropriées, que leurs attentes soient gérées et qu'il soit informé lorsque les opérations normales reprennent.

Dans AWS, vous pouvez générer des vues de tableau de bord de vos métriques collectées à partir des charges de travail et nativement depuis AWS. Vous pouvez tirer profit de CloudWatch ou d'applications tierces pour regrouper et présenter des perspectives d'opérations au niveau de l'entreprise, de la charge de travail ou des opérations. AWS fournit des informations de charges de travail par le biais de fonctionnalités de journalisation, notamment AWS X-Ray, CloudWatch, CloudTrail et les journaux de flux VPC pour identifier les problèmes de charges de travail en soutien à l'analyse des causes racines et à la résolution.

Les questions suivantes sont axées sur ces quelques considérations relatives à l'excellence opérationnelle.

OPS 8:  How do you utilize workload observability in your organization?
Ensure optimal workload health by leveraging observability. Utilize relevant metrics, logs, and traces to gain a comprehensive view of your workload's performance and address issues efficiently.
OPS 9:  How do you understand the health of your operations?
Define, capture, and analyze operations metrics to gain visibility to operations events so that you can take appropriate action.
OPS 10:  How do you manage workload and operations events?
Prepare and validate procedures for responding to events to minimize their disruption to your workload.

Toutes les métriques que vous recueillez doivent être alignées sur un besoin métier et les résultats qu'elles prennent en charge. Développez des réponses scriptées aux événements bien compris et automatisez leur exécution en réponse à la reconnaissance de l'événement.