Excelencia operativa - Operational Excellence Pillar

Excelencia operativa

En Amazon, definimos la excelencia operativa como el compromiso de crear software correctamente, al mismo tiempo que se ofrece de forma coherente una excelente experiencia de cliente. Contiene las prácticas recomendadas para organizar su equipo, diseñar su carga de trabajo, ejecutarla a escala y hacerla evolucionar con el tiempo. La excelencia operativa ayuda a su equipo a dedicar más tiempo a crear nuevas características que beneficien a los clientes y menos tiempo al mantenimiento y a la resolución de problemas. Para poder crear correctamente, analizamos las prácticas recomendadas que dan como resultado sistemas que funcionan bien, una carga de trabajo equilibrada para usted y su equipo y, lo que es más importante, una excelente experiencia de cliente.

El objetivo de la excelencia operativa es conseguir que las nuevas características y las correcciones de errores lleguen a los clientes de forma rápida y fiable. Las organizaciones que invierten en excelencia operativa deleitan a los clientes de forma coherente mientras crean nuevas características, hacen cambios y afrontan los errores. Durante el proceso, la excelencia operativa impulsa la integración continua y la entrega continua (CI/CD), lo que ayuda a los desarrolladores a obtener resultados de alta calidad y de forma coherente.

Principios de diseño

A continuación, se presentan los principios de diseño para la excelencia operativa en la nube:

  • Organización de los equipos en torno a los resultados empresariales: la capacidad de un equipo para lograr los resultados empresariales proviene de la visión del liderazgo, las operaciones efectivas y un modelo operativo alineado con el negocio. Los líderes deben invertir en la transformación de CloudOps y comprometerse plenamente con este proceso a través de un modelo operativo en la nube adecuado que incentive a los equipos a trabajar de la manera más eficiente y a alcanzar los objetivos empresariales. Un modelo operativo adecuado aprovechará las capacidades de las personas, los procesos y la tecnología para escalar, optimizar la productividad y diferenciarse a través de la agilidad y la capacidad de respuesta y adaptación. La visión a largo plazo de la organización se traduce en objetivos que se comunican a las partes interesadas de toda la empresa y a los consumidores de sus servicios en la nube. Los objetivos y los KPI operativos están alineados a todos los niveles. Esta práctica asegura el valor a largo plazo que se obtiene al aplicar los siguientes principios de diseño.

  • Implementación de la observabilidad para obtener información práctica: conozca plenamente el comportamiento, el rendimiento, la fiabilidad, el costo y el estado de la carga de trabajo. Establezca indicadores clave de rendimiento (KPI) y utilice la telemetría de observabilidad para tomar decisiones informadas y medidas rápidas cuando los resultados empresariales estén en riesgo. Mejore de forma proactiva el rendimiento, la fiabilidad y los costos según los datos de observabilidad procesables.

  • Automatización segura siempre que sea posible: en la nube, puede aplicar la misma disciplina de ingeniería que usa para el código de aplicación a todo el entorno. Puede definir toda la carga de trabajo y sus operaciones (aplicaciones, infraestructura, configuración y procedimientos) como código y actualizarla. A continuación, para proceder a automatizar las operaciones de su carga de trabajo, puede iniciarlas en respuesta a los eventos. En la nube, puede automatizar la seguridad mediante la configuración de barreras de protección, entre las que se incluyen el control de velocidad, los umbrales de error y las aprobaciones. Con una automatización eficaz, puede conseguir respuestas uniformes a los eventos, limitar los errores humanos y reducir el esfuerzo de los operadores.

  • Cambios frecuentes, pequeños y reversibles: diseñe cargas de trabajo que sean escalables y tengan acoplamiento flexible para permitir que los componentes se actualicen con regularidad. Las técnicas de implementación automatizadas, en combinación con cambios graduales más pequeños, reducen el radio de repercusión y permiten una reversión más rápida cuando se producen fallos. Esto aumenta la confianza para aplicar cambios beneficiosos en su carga de trabajo y, al mismo tiempo, se mantiene la calidad y es posible adaptarse rápidamente a los cambios en las condiciones del mercado.

  • Refinamiento frecuente de los procedimientos operativos: a medida que evolucione las cargas de trabajo, evolucione sus operaciones de forma adecuada. A medida que vaya usando los procedimientos operativos, busque oportunidades para mejorarlos. Haga revisiones regulares y valide que todos los procedimientos sean efectivos y que los equipos estén familiarizados con ellos. Cuando se identifiquen lagunas, actualice los procedimientos en consecuencia. Comunique las actualizaciones de los procedimientos a todas las partes interesadas y equipos. Ludifique sus operaciones para compartir las prácticas recomendadas y formar a los equipos.

  • Anticipación del fracaso: maximice el éxito operativo analizando los situaciones de error para comprender el perfil de riesgo de la carga de trabajo y su impacto en los resultados empresariales. Pruebe la eficacia de sus procedimientos y la respuesta de su equipo a estos fallos simulados. Tome decisiones fundamentadas para gestionar los riesgos existentes identificados por sus pruebas.

  • Aprendizaje de todos los eventos y métricas operacionales: impulse las mejoras gracias a las lecciones que se aprendan después de todos los eventos operativos y errores. Comparta las conclusiones con los equipos y con toda la organización. Se deben destacar datos y anécdotas relacionados con la forma en la que las operaciones contribuyen a los resultados empresariales.

  • Uso de los servicios administrados: reduzca la carga operativa mediante el uso de los servicios administrados de AWS siempre que sea posible. Desarrolle procedimientos operativos en torno a las interacciones con esos servicios.

Definición

Hay cuatro áreas de prácticas recomendadas para la excelencia operativa en la nube:

  • Organización

  • Preparación

  • Operación

  • Evolución

La dirección de la organización define los objetivos empresariales. La organización debe comprender los requisitos y prioridades, y usarlos para organizar y llevar a cabo su trabajo para lograr los objetivos de la empresa. Su carga de trabajo debe emitir la información necesaria para apoyarlos. Al implementar servicios para activar la integración, la implementación y la entrega de la carga de trabajo, creará un flujo creciente de cambios beneficiosos para la producción al automatizarse los procesos repetitivos.

Puede haber riesgos inherentes a la operativa de la carga de trabajo. Debe comprender dichos riesgos y tomar una decisión informada para iniciar la producción. Sus equipos deben poder prestar asistencia a su carga de trabajo. Las métricas empresariales y operativas derivadas de los resultados empresariales deseados le ayudarán a comprender el estado de su carga de trabajo y sus actividades de operaciones, así como a responder a los incidentes. Las prioridades cambiarán a medida que cambien sus necesidades empresariales y su entorno empresarial. Úselas como referencia para introducir mejoras continuamente en su organización y en la operativa de la carga de trabajo.