Principes de conception
Il existe cinq principes de conception relatifs à l'excellence opérationnelle dans le cloud :
-
Exécuter des opérations sous la forme de code : dans le cloud, vous pouvez appliquer la même discipline d'ingénierie que celle que vous utilisez pour le code d'application dans l'ensemble de l'environnement. Vous pouvez définir l'ensemble de votre charge de travail (applications, infrastructure) en tant que code et la mettre à jour avec du code. Vous pouvez mettre en œuvre vos procédures opératoires en tant que code et automatiser leur exécution en les déclenchant en réponse à des événements. En effectuant les opérations en tant que code, vous limitez les erreurs humaines et permettez de fournir des réponses cohérentes aux événements.
-
Effectuer des modifications fréquentes, légères et réversibles : concevez des charges de travail de manière à ce qu'elles permettent une mise à jour régulière des composants. Apportez des modifications par petits ajouts, qui peuvent être annulées si elles ne fonctionnent pas (sans affecter les clients lorsque cela est possible).
-
Améliorer régulièrement les procédures opérationnelles : tout en utilisant des procédures opérationnelles, cherchez le moyen de les améliorer. Faites évoluer vos procédures en fonction des changements que subit votre charge de travail. Planifiez régulièrement des journées jeu de rôle pour passer les procédures en revue, et vous assurer qu'elles sont efficaces et que les équipes les maîtrisent.
-
Anticiper les pannes : effectuez des exercices « pre-mortem » afin d'identifier les causes possibles de panne et de les supprimer ou de les atténuer. Testez vos scénarios de pannes et confirmez votre compréhension de leur impact. Testez vos procédures d'intervention pour vous assurer qu'elles sont efficaces, et que les équipes sont familiarisées avec leur exécution. Planifiez des journées jeu de rôle pour tester les charges de travail et les réponses de l'équipe face à des événements simulés.
-
Tirer des leçons de toutes les pannes opérationnelles : favorisez l'amélioration grâce aux leçons tirées de tous les événements et pannes liés aux opérations. Communiquez ce qui a été appris aux équipes et à l'ensemble de l'entreprise.