SEC10-BP02 Développer des plans de gestion des incidents
Créez des plans pour vous aider à réagir, à communiquer pendant un incident et rétablir les opérations. À titre d'exemple, vous pouvez lancer un plan d'intervention en cas d'incident avec les scénarios les plus probables pour votre charge de travail et votre organisation. Incluez la façon dont vous devez communiquer et transmettre les situations aux paliers supérieurs en interne et en externe.
Niveau d'exposition au risque si cette bonne pratique n'est pas respectée : Élevé
Directives d'implémentation
Un plan de gestion des incidents est essentiel pour réagir, atténuer et se remettre des répercussions potentielles des incidents de sécurité. Un plan de gestion des incidents est un processus structuré qui permet d'identifier les incidents de sécurité, d'y remédier et d'y répondre rapidement.
Le cloud comporte un grand nombre de rôles et exigences opérationnels identiques à ceux d'un environnement sur site. Lorsque vous créez un plan de gestion des incidents, il est important de tenir compte des stratégies d'intervention et de récupération qui correspondent le mieux aux résultats opérationnels et aux exigences de conformité. Par exemple, si vous exécutez des charges de travail dans AWS qui sont conformes à FedRAMP aux États-Unis, il est utile de respecter NIST SP 800-61 Computer Security Handling Guide
Lorsque vous élaborez un plan de gestion des incidents pour vos charges de travail exécutées dans AWS, commencez par le Modèle de responsabilité partagée AWS,
Un plan de gestion des incidents efficace doit être répété constamment, tout en poursuivant votre objectif d'opérations dans le cloud. Envisagez d'utiliser les plans d'implémentation décrits ci-dessous pour créer et faire évoluer votre plan de gestion des incidents.
-
Éduquez et formez aux réponses aux incidents : en cas d'écart par rapport à votre base de référence définie (par exemple, un déploiement erroné ou une mauvaise configuration), il est possible que vous ayez besoin d'intervenir et d'analyser. Pour y parvenir, vous devez comprendre les contrôles et les capacités que vous pouvez utiliser afin d'intervenir en cas d'incident de sécurité dans votre environnement AWS, ainsi que les processus que vous devez envisager pour préparer, éduquer et former vos équipes cloud participant à une réponse face à un incident.
-
Les playbooks et les runbooks sont des mécanismes efficaces pour assurer l'uniformité de la formation sur les réponses aux incidents. Commencez par dresser une liste initiale des procédures fréquemment exécutées lors d'une réponse aux incidents, puis continuez à itérer à mesure que vous apprenez ou utilisez de nouvelles procédures.
-
Socialisez les playbooks et les runbooks via des tests de simulation de pannes planifiés. Pendant les test de simulation de pannes, simulez la réponse à un incident dans un environnement contrôlé afin que votre équipe puisse se rappeler les mesures à prendre et pour vérifier que les équipes impliquées dans la réponse aux incidents connaissent bien les flux de travail. Examinez les résultats de l'événement simulé afin d'identifier les améliorations et de déterminer le besoin en formation complémentaire ou en outils supplémentaires.
-
Chacun doit se sentir responsable de la sécurité. Créez une connaissance collective du processus de gestion des incidents en faisant appel à tout le personnel qui exécute normalement vos charges de travail. Cela inclut tous les aspects de votre activité : les opérations, les tests, le développement, la sécurité, les opérations métier et les responsables.
-
-
Documentez le plan de gestion des incidents : documentez les outils et le processus pour consigner les incidents actifs, les corriger, communiquer les progrès réalisés et transmettre des notifications à leur sujet. L'objectif du plan de gestion des incidents est de vérifier que le fonctionnement normal est rétabli le plus rapidement possible, que les répercussions sur les activités sont réduites au minimum et que toutes les parties concernées sont informées. Les exemples d'incidents incluent notamment la perte ou la dégradation de la connectivité du réseau, un processus ou une API non réactif(ve), une tâche planifiée non exécutée (par exemple, un correctif défaillant), l'indisponibilité des données ou du service de l'application, une interruption de service imprévue en raison d'événements de sécurité, des fuites d'informations d'identification ou des erreurs de configuration.
-
Identifiez le propriétaire principal responsable de la résolution des incidents, par exemple le propriétaire de la charge de travail. Établissez des directives claires relatives à la personne chargée de diriger l'incident et à la gestion de la communication. Lorsque plusieurs intervenants participent au processus de résolution des incidents, par exemple un fournisseur externe, pensez à créer une matrice des responsabilités (RACI)décrivant les rôles et les responsabilités de diverses équipes ou personnes nécessaires à la résolution des incidents.
Une matrice RACI explore les points suivants :
-
R : un tiers responsable qui fait le travail pour accomplir la tâche.
-
A : un tiers ou une partie prenante ayant l'autorité finale en ce qui concerne la réussite de la tâche spécifique.
-
C : un tiers consulté dont les opinions sont sollicitées, généralement à titre d'expert en la matière.
-
I : un tiers informé de la progression, généralement une fois la tâche ou le produit livrable terminé(e).
-
-
-
Catégorisez les incidents : la définition et la catégorisation des incidents en fonction de leur gravité et de leur incidence permettent d'adopter une approche structurée pour trier et résoudre les incidents. Les recommandations suivantes illustrent une matrice d'urgence de l'impact à la résolution afin de quantifier un incident. Par exemple, un incident dont l'impact et l'urgence sont faibles est considéré comme un incident de faible gravité.
-
Élevé (H) : l'impact sur votre entreprise est important. Des fonctions critiques de votre application liées aux ressources AWS ne sont pas disponibles. Réservé aux événements les plus critiques affectant les systèmes de production. L'impact de l'incident augmente rapidement, les mesures correctives étant urgentes.
-
Moyen (M) : un service ou une application d'entreprise lié aux ressources AWS est modérément touché et fonctionne dans un état dégradé. Les applications qui contribuent aux objectifs de niveau de service (SLO) sont touchées dans les limites du contrat de niveau de service (SLA). Les systèmes peuvent fonctionner avec une capacité réduite sans que cela ait un impact important du point de vue financier et de la réputation.
-
Faible (L) : des fonctions non-critiques de votre application ou service métier en lien avec les ressources AWS sont impactées. Les systèmes peuvent fonctionner avec une capacité réduite et un impact minimal du point de vue financier et de la réputation.
-
-
Standardisez les contrôles de sécurité : la standardisation des contrôles de sécurité vise à garantir l'uniformité, la traçabilité et la répétabilité des résultats opérationnels. Standardisez les principales activités qui jouent un rôle essentiel dans la réponse aux incidents, notamment :
-
Gestion des identités et des accès : mettez en place des mécanismes de contrôle de l'accès à vos données et de gestion des privilèges pour les identités humaines et machine. Étendez votre propre gestion des identités et des accès au cloud en utilisant une sécurité fédérée avec une authentification unique et des privilèges basés sur les rôles pour optimiser la gestion des accès. Pour obtenir des recommandations en matière de bonnes pratiques et des plans d'amélioration visant à standardiser la gestion des accès, consultez la section consacrée à la gestion des identités et des accès dans le livre blanc du pilier Sécurité
-
Gestion des vulnérabilités : mettez en place des mécanismes pour identifier les vulnérabilités dans votre environnement AWS qui sont susceptibles d'être utilisées par les attaquants afin de compromettre votre système et de l'utiliser à mauvais escient. Implémentez des contrôles matures en matière de prévention et de détection en tant que mécanismes de sécurité permettant de répondre aux incidents de sécurité et d'en atténuer l'impact potentiel. Standardisez les processus tels que la modélisation des menaces dans le cadre de la création de votre infrastructure et du cycle de vie de la livraison des applications.
-
Gestion de la configuration : définissez des configurations standard et automatisez les procédures de déploiement des ressources dans le AWS Cloud. La standardisation de l'infrastructure et de la mise en service des ressources permet d'atténuer le risque d'erreurs de configuration dues à des déploiements erronés ou à des erreurs humaines accidentelles. Reportez-vous à la section sur les principes de conception du livre blanc Pilier de l'excellence opérationnelle afin de consulter des conseils et des plans d'amélioration relatifs à l'implémentation de ce contrôle.
-
Journalisation et surveillance pour le contrôle d'audit : implémentez des mécanismes permettant de surveiller vos ressources en cas de défaillances, de dégradation des performances et de problèmes de sécurité. La standardisation de ces contrôles fournit également des pistes d'audit des activités qui se déroulent dans votre système, ce qui facilite le triage et la résolution rapides des problèmes. Les bonnes pratiques conformément à SEC04 Comment détecter et enquêter sur les événements de sécurité ? fournissent des conseils pour implémenter ce contrôle.
-
-
Utilisez l'automatisation : L'automatisation permet de résoudre rapidement les incidents à grande échelle. AWS fournit plusieurs services à automatiser dans le contexte de la stratégie de réponse aux incidents. Concentrez-vous sur la recherche d'un équilibre approprié entre l'automatisation et l'intervention manuelle. Lorsque vous créez votre réponse aux incidents dans des playbooks et des runbooks, automatisez les étapes reproductibles. Utilisez des services AWS tels qu'AWS Systems Manager Incident Manager pour résoudre des incidents informatiques plus rapidement
. Utilisez les outils pour développeurs afin de fournir le contrôle des versions et d'automatiser Amazon Machine Images (AMI) et les déploiements d'infrastructure en tant que code (IaC) sans intervention humaine. Lorsque c'est possible, automatisez la détection et l'évaluation de la conformité à l'aide de services gérés tels qu'Amazon GuardDuty, Amazon Inspector, AWS Security Hub, AWS Config et Amazon Macie. Optimisez les capacités de détection grâce au machine learning comme Amazon DevOps Guru qui permet de détecter les problèmes de modèles de fonctionnement anormal avant qu'ils ne surviennent. -
Effectuez une analyse des causes racines et tirez des leçons : implémentez des mécanismes pour tirer des enseignements dans le cadre d'un examen de la réponse après l'incident. Lorsque la cause racine d'un incident révèle un défaut plus important, un défaut de conception, une mauvaise configuration ou une possibilité de récidive, l'incident est classé dans la catégorie des problèmes. Dans ces cas de figure, analysez et résolvez le problème afin de minimiser la perturbation des opérations normales.
Ressources
Documents connexes :
Vidéos connexes :
Exemples connexes :