Principios de diseño - Marco de AWS Well-Architected

Principios de diseño

A continuación, se presentan los principios de diseño para la excelencia operativa en la nube:

  • Organización de los equipos en torno a los resultados empresariales: la capacidad de un equipo para lograr los resultados empresariales proviene de la visión del liderazgo, las operaciones efectivas y un modelo operativo alineado con el negocio. Los líderes deben invertir en la transformación de CloudOps y comprometerse plenamente con este proceso a través de un modelo operativo en la nube adecuado que incentive a los equipos a trabajar de la manera más eficiente y a alcanzar los objetivos empresariales. Un modelo operativo adecuado aprovechará las capacidades de las personas, los procesos y la tecnología para escalar, optimizar la productividad y diferenciarse a través de la agilidad y la capacidad de respuesta y adaptación. La visión a largo plazo de la organización se traduce en objetivos que se comunican a las partes interesadas de toda la empresa y a los consumidores de sus servicios en la nube. Los objetivos y los KPI operativos están alineados a todos los niveles. Esta práctica asegura el valor a largo plazo que se obtiene al aplicar los siguientes principios de diseño.

  • Implementación de la observabilidad para obtener información práctica: conozca plenamente el comportamiento, el rendimiento, la fiabilidad, el costo y el estado de la carga de trabajo. Establezca indicadores clave de rendimiento (KPI) y utilice la telemetría de observabilidad para tomar decisiones informadas y medidas rápidas cuando los resultados empresariales estén en riesgo. Mejore de forma proactiva el rendimiento, la fiabilidad y los costos según los datos de observabilidad procesables.

  • Automatización segura siempre que sea posible: en la nube, puede aplicar la misma disciplina de ingeniería que usa para el código de aplicación a todo el entorno. Puede definir toda la carga de trabajo y sus operaciones (aplicaciones, infraestructura, configuración y procedimientos) como código y actualizarla. A continuación, para proceder a automatizar las operaciones de su carga de trabajo, puede iniciarlas en respuesta a los eventos. En la nube, puede automatizar la seguridad mediante la configuración de barreras de protección, entre las que se incluyen el control de velocidad, los umbrales de error y las aprobaciones. Con una automatización eficaz, puede conseguir respuestas uniformes a los eventos, limitar los errores humanos y reducir el esfuerzo de los operadores.

  • Cambios frecuentes, pequeños y reversibles: diseñe cargas de trabajo que sean escalables y tengan acoplamiento flexible para permitir que los componentes se actualicen con regularidad. Las técnicas de implementación automatizadas, en combinación con cambios graduales más pequeños, reducen el radio de repercusión y permiten una reversión más rápida cuando se producen fallos. Esto aumenta la confianza para aplicar cambios beneficiosos en su carga de trabajo y, al mismo tiempo, se mantiene la calidad y es posible adaptarse rápidamente a los cambios en las condiciones del mercado.

  • Refinamiento frecuente de los procedimientos operativos: a medida que evolucione las cargas de trabajo, evolucione sus operaciones de forma adecuada. A medida que vaya usando los procedimientos operativos, busque oportunidades para mejorarlos. Haga revisiones regulares y valide que todos los procedimientos sean efectivos y que los equipos estén familiarizados con ellos. Cuando se identifiquen lagunas, actualice los procedimientos en consecuencia. Comunique las actualizaciones de los procedimientos a todas las partes interesadas y equipos. Ludifique sus operaciones para compartir las prácticas recomendadas y formar a los equipos.

  • Anticipación del fracaso: maximice el éxito operativo analizando los situaciones de error para comprender el perfil de riesgo de la carga de trabajo y su impacto en los resultados empresariales. Pruebe la eficacia de sus procedimientos y la respuesta de su equipo a estos fallos simulados. Tome decisiones fundamentadas para gestionar los riesgos existentes identificados por sus pruebas.

  • Aprendizaje de todos los eventos y métricas operacionales: impulse las mejoras gracias a las lecciones que se aprendan después de todos los eventos operativos y errores. Comparta las conclusiones con los equipos y con toda la organización. Se deben destacar datos y anécdotas relacionados con la forma en la que las operaciones contribuyen a los resultados empresariales.

  • Uso de los servicios administrados: reduzca la carga operativa mediante el uso de los servicios administrados de AWS siempre que sea posible. Desarrolle procedimientos operativos en torno a las interacciones con esos servicios.