Prepárese - AWS Well-Architected Framework

Prepárese

Para prepararse para la excelencia operativa hay que entender las cargas de trabajo y sus comportamientos esperados. Entonces, podrá diseñarlas para que proporcionen información sobre su estado y crear los procedimientos para respaldarlas.

Diseñe la carga de trabajo para que proporcione la información necesaria para que pueda comprender el estado interno (por ejemplo, métricas, registros, eventos y rastreos) en todos los componentes en caso de problemas de investigación y observabilidad. La observabilidad va más allá de la simple supervisión, ya que proporciona una comprensión integral del funcionamiento interno de un sistema en función de sus resultados externos. Basada en métricas, registros y rastros, la observabilidad ofrece una visión profunda del comportamiento y la dinámica del sistema. Con una observabilidad eficaz, los equipos pueden discernir patrones, anomalías y tendencias, lo que les permite abordar de forma proactiva los posibles problemas y mantener un estado óptimo del sistema. La identificación de los indicadores clave de rendimiento (KPI) es fundamental para garantizar la alineación entre las actividades de supervisión y los objetivos empresariales. Esta alineación garantiza que los equipos tomen decisiones basadas en datos mediante la utilización de métricas que realmente sean relevantes, optimizando así tanto el rendimiento del sistema como los resultados empresariales. Además, la observabilidad permite que las empresas sean proactivas en lugar de reactivas. Los equipos pueden entender las relaciones de causa y efecto dentro de sus sistemas y predecir y prevenir los problemas en lugar de simplemente reaccionar ante ellos. A medida que las cargas de trabajo evolucionan, es esencial revisar y refinar la estrategia de observabilidad para garantizar que esta siga siendo relevante y eficaz.

Adopte enfoques que mejoren el flujo de cambios en la producción y que ayuden a la refactorización, a la respuesta rápida sobre la calidad y a la corrección de errores. Estos enfoques aceleran los cambios positivos que se introducen en la producción, limitan los problemas implementados y activan una rápida identificación y solución de los problemas introducidos a través de las actividades de despliegue o descubiertas en sus entornos.

Adopte enfoques que proporcionen una respuesta inmediata sobre la calidad y logren una recuperación rápida de los cambios que no muestran los resultados deseados. El uso de estas prácticas ayuda a mitigar el impacto de los problemas generados con la implementación de cambios. Planifique para hacer frente a los cambios fallidos para que pueda responder rápidamente si es necesario. Además, pruebe y valide los cambios que realice. Debe conocer las actividades planificadas en sus entornos para poder administrar el riesgo de que los cambios afecten a dichas actividades. Realice cambios frecuentes, pequeños y reversibles para limitar el alcance del cambio. Al hacerlo, los problemas se solucionan de forma más rápida con la opción de revertir un cambio. También significa que podrá beneficiarse de unos cambios valiosos de forma más frecuente.

Evalúe la disponibilidad operativa de la carga de trabajo, los procesos y procedimientos, y el personal para comprender los riesgos operativos relacionados con la carga de trabajo. Use un proceso coherente (que incluya listas de verificación manuales y automáticas) para saber cuándo una carga de trabajo o cambio estarán listos para lanzarse. Esto también le ayudará a detectar cualquier área para la que sea necesaria la elaboración de un plan de tratamiento. Debe disponer de runbooks que documenten las actividades rutinarias y guías de estrategias para aplicar los procesos de resolución de errores. Debe comprender los beneficios y los riesgos para tomar decisiones bien fundamentadas a fin de permitir que los cambios entren en la fase de producción.

AWS le permite ver toda su carga de trabajo (aplicaciones, infraestructura, política, gobernanza y operaciones) como código. Eso significa que puede aplicar la misma disciplina de ingeniería que usa para el código de las aplicaciones a cada elemento de su pila y compartirla entre los equipos u organizaciones para magnificar los beneficios de los esfuerzos de desarrollo. Use las operaciones como código en la nube y la capacidad de experimentar de manera segura para desarrollar la carga de trabajo, sus procedimientos operativos y poner en práctica los casos en los que se produzcan errores. Usar AWS CloudFormation le permite tener entornos de producción, de pruebas y de desarrollo del entorno aislado coherentes y con formatos ya definidos, con un aumento de los niveles de control operativo.

Las siguientes preguntas se centran en estas consideraciones sobre la excelencia operativa.

OPS 4: ¿Cómo implementa la observabilidad en su carga de trabajo?
Implemente la observabilidad en su carga de trabajo para que pueda comprender su estado y tomar decisiones basadas en datos en función de los requisitos empresariales.
OPS 5: ¿Cómo reduce los defectos, facilita la reparación y mejora el flujo en la producción?
Adopte métodos que mejoren el flujo de cambios en la producción, que permitan la refactorización de la información rápida sobre la calidad y la corrección de errores. Esto acelerará los cambios positivos que se introducen en la producción, limitará los problemas desplegados y logrará una rápida identificación y solución de los problemas introducidos a través de las actividades de despliegue.
OPS 6: ¿Cómo mitiga los riesgos de despliegue?
Adopte métodos que proporcionen una respuesta inmediata sobre la calidad y logren una recuperación rápida de los cambios que no obtengan los resultados deseados. El uso de estas prácticas ayuda a mitigar el impacto de los problemas generados con el despliegue de cambios.
OPS 7: ¿Cómo sabe que está listo para dar respaldo a una carga de trabajo?
Evalúe la disponibilidad operativa de la carga de trabajo, los procesos y procedimientos, y el personal para comprender los riesgos operativos relacionados con la carga de trabajo.

Invierta en implementar actividades operativas como código para maximizar la productividad del personal de operaciones, minimizar las tasas de error y habilitar las respuestas automatizadas. Realice ensayos de fallas “pre-mortem” para anticipar el fracaso y crear procedimientos cuando sea apropiado. Aplique metadatos mediante etiquetas de registro y AWS Resource Groups mediante una estrategia de etiquetado coherente para permitir la identificación de sus recursos. Etiquete sus recursos para la organización, la contabilidad de costes, los controles de acceso y el objetivo de ejecución de actividades de operaciones automatizadas. Adopte las prácticas de implementación que aprovechan la elasticidad de la nube a fin de facilitar las actividades de desarrollo y la implementación previa de sistemas para que la implementación sea más rápida. Cuando haga cambios en las listas de control que utiliza para evaluar sus cargas de trabajo, planifique lo que hará con los sistemas activos que ya no cumplen los requisitos.