Excelencia operativa - Pilar de excelencia operativa

Excelencia operativa

En Amazon, definimos la excelencia operativa como el compromiso de crear software correctamente, al mismo tiempo que se ofrece de forma coherente una excelente experiencia de cliente. Contiene las prácticas recomendadas para organizar su equipo, diseñar su carga de trabajo, ejecutarla a escala y hacerla evolucionar con el tiempo. La excelencia operativa ayuda a su equipo a dedicar más tiempo a crear nuevas características que beneficien a los clientes y menos tiempo al mantenimiento y a la resolución de problemas. Para poder crear correctamente, analizamos las prácticas recomendadas que dan como resultado sistemas que funcionan bien, una carga de trabajo equilibrada para usted y su equipo y, lo que es más importante, una excelente experiencia de cliente.

El objetivo de la excelencia operativa es conseguir que las nuevas características y las correcciones de errores lleguen a los clientes de forma rápida y fiable. Las organizaciones que invierten en excelencia operativa deleitan a los clientes de forma coherente mientras crean nuevas características, realizan cambios y afrontan los errores. Durante el proceso, la excelencia operativa impulsa la integración continua y la entrega continua (CI/CD), lo que ayuda a los desarrolladores a obtener resultados de alta calidad y de forma coherente.

Principios de diseño

A continuación, se presentan los principios de diseño para la excelencia operativa en la nube:

  • Lleve a cabo operaciones como código: en la nube, puede aplicar la misma disciplina de ingeniería que usa para el código de aplicación a todo el entorno. Puede definir toda su carga de trabajo (aplicaciones, infraestructura, etc.) como código y actualizarla con código. Puede secuenciar los procedimientos operativos y automatizar su proceso al presentarlos como respuesta a eventos. Al llevar a cabo operaciones como código, limita los errores humanos y crea respuestas coherentes a los eventos.

  • Realice cambios pequeños, frecuentes y que pueda revertir: Diseñe cargas de trabajo que sean escalables y tengan acoplamiento flexible para permitir que los componentes se actualicen con regularidad. Las técnicas de despliegue automatizadas, junto con cambios incrementales más pequeños, reducen el radio de repercusión y permiten revertir los cambios más rápido cuando se producen fallos. Esto aumenta la confianza para realizar cambios beneficiosos en su carga de trabajo y, al mismo tiempo, se mantiene la calidad y es posible adaptarse rápidamente a los cambios en las condiciones del mercado.

  • Perfeccione los procedimientos operativos con frecuencia: Desarrolle debidamente las operaciones a la par que la carga de trabajo. a medida que vaya usando los procedimientos operativos, busque oportunidades para mejorarlos. Realice revisiones regulares y valide que todos los procedimientos sean efectivos y que los equipos estén familiarizados con ellos. Cuando se identifiquen lagunas, actualice los procedimientos en consecuencia. Comunique las actualizaciones de los procedimientos a todas las partes interesadas y equipos. Gamifique sus operaciones para compartir las prácticas recomendadas y formar a los equipos.

  • Anticipe los errores: lleve a cabo ejercicios «pre-mortem» para identificar posibles fuentes de error con el fin de poder eliminarlas o mitigarlas. Ponga a prueba las situaciones en las que se produzca un error y confirme que entiende su impacto. Ponga a prueba los procedimientos de respuesta para garantizar su eficacia, así como para asegurarse de que los equipos conocen su proceso. Configure días de juego habituales para poner a prueba la carga de trabajo y las respuestas del equipo ante eventos simulados.

  • Aprenda de los errores operativos: impulse las mejoras gracias a las lecciones que se aprendan después de todos los eventos operativos y errores. Comparta las enseñanzas con los equipos y con toda la organización.

  • Use servicios administrados: reduzca la carga operativa mediante el uso de los servicios administrados de AWS siempre que sea posible. Desarrolle procedimientos operativos en torno a las interacciones con esos servicios.

  • Implemente la observabilidad para obtener información práctica: conozca plenamente el comportamiento, el rendimiento, la fiabilidad, el coste y el estado de la carga de trabajo. Establezca indicadores clave de rendimiento (KPI) y utilice la telemetría de observabilidad para tomar decisiones informadas y medidas rápidas cuando los resultados empresariales estén en riesgo. Mejore proactivamente el rendimiento, la fiabilidad y el coste en función de datos de observabilidad procesables.

Definición

Hay cuatro áreas de prácticas recomendadas para la excelencia operativa en la nube:

  • Organización

  • Prepárese

  • Operación

  • Evolucionar

La dirección de la organización define los objetivos empresariales. La organización debe comprender los requisitos y prioridades, y usarlos para organizar y llevar a cabo su trabajo para lograr los objetivos de la empresa. Su carga de trabajo debe emitir la información necesaria para apoyarlos. Al implementar servicios para activar la integración, el despliegue y la entrega de la carga de trabajo, creará un flujo creciente de cambios beneficiosos para la producción al automatizarse los procesos repetitivos.

Puede haber riesgos inherentes a la operativa de la carga de trabajo. Debe comprender dichos riesgos y tomar una decisión informada para iniciar la producción. Sus equipos deben poder prestar asistencia a su carga de trabajo. Las métricas empresariales y operativas derivadas de los resultados empresariales deseados le ayudarán a comprender el estado de su carga de trabajo y sus actividades de operaciones, así como a responder a los incidentes. Las prioridades cambiarán a medida que cambien sus necesidades empresariales y su entorno empresarial. Úselas como referencia para introducir mejoras continuamente en su organización y en la operativa de la carga de trabajo.