Principios de diseño - AWS Well-Architected Framework

Principios de diseño

A continuación, se presentan los principios de diseño para la excelencia operativa en la nube:

  • Organizar a los equipos en torno a los objetivos empresariales: la capacidad de un equipo para alcanzar los objetivos empresariales depende de la visión de sus líderes, la eficiencia de las operaciones y de la alineación del modelo operativo con el negocio. Los líderes deben invertir en la transformación de CloudOps y comprometerse plenamente con este proceso a través de un modelo operativo en la nube adecuado que incentive a los equipos a trabajar de la manera más eficiente y a alcanzar los objetivos empresariales. Un modelo operativo adecuado aprovechará las capacidades de las personas, los procesos y la tecnología para escalar, optimizar la productividad y diferenciarse a través de la agilidad y la capacidad de respuesta y adaptación. La visión a largo plazo de la organización se traduce en objetivos que se comunican a las partes interesadas de toda la empresa y a los consumidores de sus servicios en la nube. Los objetivos y los KPI operativos están alineados a todos los niveles. Esta práctica asegura el valor a largo plazo que se obtiene al aplicar los siguientes principios de diseño.

  • Implementar la observabilidad para obtener información práctica: entienda en profundidad la evolución de la carga de trabajo, el rendimiento, el grado de fiabilidad, el coste y el estado. Establezca indicadores clave de rendimiento (KPI) y utilice la telemetría de observabilidad para tomar decisiones informadas y medidas rápidas cuando los resultados empresariales estén en riesgo. Mejore de forma proactiva el rendimiento, la fiabilidad y los costes basándose en datos de observabilidad procesables.

  • Automatizar de forma segura siempre que sea posible: en la nube, puede aplicar la misma disciplina de ingeniería que usa para el código de aplicación a todo el entorno. Puede definir toda la carga de trabajo y sus operaciones (aplicaciones, infraestructura, configuración y procedimientos) como código y actualizarla. A continuación, puede proceder a automatizar las operaciones de su carga de trabajo iniciándolas en respuesta a los eventos. En la nube, puede automatizar la seguridad mediante la configuración de barreras de protección, entre las que se incluyen el control de velocidad, los umbrales de error y las aprobaciones. Con una automatización eficaz, puede conseguir respuestas uniformes a los eventos, limitar los errores humanos y reducir el esfuerzo de los operadores.

  • Realizar cambios frecuentes, pequeños y reversibles: diseñe cargas de trabajo que sean escalables y tengan acoplamiento flexible para permitir que los componentes se actualicen con regularidad. Las técnicas de despliegue automatizadas, en combinación con cambios graduales más pequeños, reducen el radio de repercusión y permiten una reversión más rápida cuando se producen fallos. Esto aumenta la confianza para realizar cambios beneficiosos en su carga de trabajo y, al mismo tiempo, se mantiene la calidad y es posible adaptarse rápidamente a los cambios en las condiciones del mercado.

  • Refinar los procedimientos de operaciones con frecuencia: a medida que evolucione sus cargas de trabajo, evolucione también sus operaciones de la forma correspondiente. a medida que vaya usando los procedimientos operativos, busque oportunidades para mejorarlos. Realice revisiones regulares y valide que todos los procedimientos sean efectivos y que los equipos estén familiarizados con ellos. Cuando se identifiquen lagunas, actualice los procedimientos en consecuencia. Comunique las actualizaciones de los procedimientos a todas las partes interesadas y equipos. Gamifique sus operaciones para compartir las prácticas recomendadas y formar a los equipos.

  • Anticipar los fallos: maximice el éxito operativo mediante la creación de escenarios hipotéticos de fallos para conocer el perfil de riesgo de la carga de trabajo y su repercusión sobre los resultados empresariales. Pruebe la eficacia de sus procedimientos y la respuesta de su equipo a estos fallos simulados. Tome decisiones informadas para gestionar los riesgos existentes identificados por sus pruebas.

  • Aprender de las métricas y de los eventos operativos: impulse las mejoras gracias a las lecciones aprendidas de todos los eventos y fallos operativos. Comparta las conclusiones con los equipos y con toda la organización. Se deben destacar datos y anécdotas relacionados con la forma en la que las operaciones contribuyen a los resultados empresariales.

  • Utilizar servicios administrados: reduzca la carga operativa mediante el uso de servicios administrados de AWS siempre que sea posible. Desarrolle procedimientos operativos en torno a las interacciones con esos servicios.