OPS04-BP04 Mise en œuvre de la télémétrie des dépendances - AWS Well-Architected Framework

OPS04-BP04 Mise en œuvre de la télémétrie des dépendances

La télémétrie des dépendances est essentielle pour surveiller l’état et les performances des services et composants externes sur lesquels repose votre charge de travail. Elle fournit des informations précieuses sur l’accessibilité, les délais d’attente et d’autres événements critiques liés aux dépendances tels que le DNS, les bases de données ou les API tierces. Lorsque vous instrumentez votre application de sorte à émettre des métriques, des journaux et des données de suivi concernant ces dépendances, vous identifiez plus facilement les goulets d’étranglement potentiels, les problèmes de performances ou les défaillances susceptibles d’avoir un impact sur votre charge de travail.

Résultat souhaité : assurez-vous que les dépendances sur lesquelles repose votre charge de travail fonctionnent comme prévu, ce qui vous permet de résoudre les problèmes de manière proactive et de garantir des performances de charge de travail optimales.

Anti-modèles courants :

  • Omission des dépendances externes : se concentrer uniquement sur les métriques internes des applications tout en négligeant les métriques liées aux dépendances externes.

  • Absence de surveillance proactive : attendre l’apparition de problèmes au lieu de surveiller en permanence l’état et les performances des dépendances.

  • Surveillance cloisonnée : utiliser des outils de surveillance divers et variés qui peuvent donner lieu à des visions fragmentées et incohérentes de l’état des dépendances.

Avantages de la mise en place de cette bonne pratique :

  • Fiabilité améliorée de la charge de travail : en garantissant que les dépendances externes sont constamment disponibles et fonctionnent de manière optimale.

  • Détection et résolution plus rapides des problèmes : en identifiant et en résolvant de manière proactive les problèmes liés aux dépendances avant qu’ils n’affectent la charge de travail.

  • Vue globale : grâce à une visibilité complète des composants internes et externes qui influencent l’état de la charge de travail.

  • Meilleure capacité de mise à l’échelle de la charge de travail : grâce à une meilleure compréhension des limites de la capacité de mise à l’échelle et des caractéristiques de performance des dépendances externes.

Niveau de risque exposé si cette bonne pratique n’est pas respectée : élevé

Directives d’implémentation

Mettez en œuvre la télémétrie des dépendances en commençant par identifier les services, l’infrastructure et les processus sur lesquels repose votre charge de travail. Quantifiez ce à quoi les conditions favorables ressemblent lorsque ces dépendances fonctionnent comme prévu, puis déterminez les données nécessaires pour les mesurer. Ces informations vous permettront de créer des tableaux de bord et des alertes qui fourniront à vos équipes opérationnelles des informations sur l’état de ces dépendances. Utilisez les outils AWS pour découvrir et quantifier les impacts lorsque les dépendances ne répondent pas aux besoins. Revoyez continuellement votre stratégie en tenant compte de l'évolution des priorités, des objectifs et des connaissances acquises.

Étapes d'implémentation

Pour implémenter efficacement la télémétrie des dépendances :

  1. Identifiez les dépendances externes : collaborez avec les parties prenantes pour identifier les dépendances externes sur lesquelles repose votre charge de travail. Les dépendances externes peuvent inclure des services tels que des bases de données externes, des API tierces, des routes de connectivité réseau vers d’autres environnements et des services DNS. La première étape à suivre pour assurer l’efficacité de la télémétrie des dépendances consiste à comprendre parfaitement ce que sont ces dépendances.

  2. Élaborez une stratégie de surveillance : une fois que vous avez une idée claire de vos dépendances externes, élaborez une stratégie de surveillance qui leur est adaptée. Cela implique de comprendre le caractère critique de chaque dépendance, son comportement attendu et tous les contrats ou tous les objectifs de niveau de service associés (SLA ou SLT). Configurez des alertes proactives pour vous informer des changements d’état ou des écarts de performance.

  3. Utilisez la surveillance du réseau : utilisez Internet Monitor et Network Monitor, qui fournissent des informations complètes sur l’état mondial d’Internet et du réseau. Ces outils vous aident à comprendre les pannes, les interruptions ou les dégradations de performances qui affectent vos dépendances externes et à y répondre.

  4. Restez informé avec AWS Health Dashboard : il fournit des alertes et des conseils de remédiation en cas d’événements susceptibles d’avoir un impact sur vos services dans AWS.

    1. Surveillez les événements AWS Health à l’aide de règles Amazon EventBridge ou intégrez-les par programmation à l’API AWS Health pour automatiser les actions lorsque vous recevez des événements AWS Health. Il peut s’agir d’actions générales, telles que l’envoi de tous les messages relatifs aux événements du cycle de vie planifiés vers une interface de discussion, ou d’actions spécifiques, telles que le lancement d’un flux de travail dans un outil de gestion des services informatiques.

    2. Si vous utilisez AWS Organizations, regroupez les événements AWS Health entre les comptes.

  5. Instrumentez votre application avec AWS X-Ray : AWS X-Ray fournit des informations sur les performances des applications et de leurs dépendances sous-jacentes. En suivant les requêtes du début à la fin, vous pouvez identifier les goulets d’étranglement ou les défaillances des services ou composants externes sur lesquels repose votre application.

  6. Utilisez Amazon DevOps Guru : ce service basé sur le machine learning identifie les problèmes opérationnels, prédit le moment où des problèmes critiques peuvent survenir et recommande des mesures spécifiques à prendre. Il s’agit d’un outil inestimable qui permet de mieux comprendre les dépendances et de déterminer qu’elles ne sont pas à l’origine de problèmes opérationnels.

  7. Assurez une surveillance régulière : surveillez en permanence les métriques et les journaux liés aux dépendances externes. Configurez des alertes en cas de comportement inattendu ou de dégradation des performances.

  8. Procédez à une validation après toute modification : chaque fois qu’une dépendance externe est mise à jour ou modifiée, validez ses performances et vérifiez qu’elle correspond aux exigences de votre application.

Niveau d’effort du plan d’implémentation : moyen

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples connexes :