Perspectiva de operaciones: salud y disponibilidad - Información general sobre el marco para la adopción de la nube de AWS

Perspectiva de operaciones: salud y disponibilidad

La perspectiva de operaciones se centra en garantizar que los servicios en la nube se entreguen al nivel acordado con las partes interesadas de la empresa. La automatización y la optimización de las operaciones le permitirán escalar de manera efectiva y, al mismo tiempo, mejorar la fiabilidad de las cargas de trabajo. Esta perspectiva engloba nueve capacidades que se muestran en la siguiente ilustración. Las partes interesadas comunes son los responsables de la infraestructura y las operaciones, los ingenieros de fiabilidad del sitio y los gerentes de servicios de tecnología de la información.

Diagrama que describe las capacidades de la perspectiva de operaciones de AWS CAF.

Capacidades de la perspectiva de operaciones de AWS CAF

  • Observabilidad: obtenga información procesable de los datos de infraestructura y de las aplicaciones. Al funcionar a velocidad y escala de la nube, debe poder detectar los problemas a medida que surgen, idealmente antes de que interrumpan la experiencia del cliente. Desarrolle la telemetría (registros, métricas y seguimientos) necesaria para comprender el estado interno y el estado de las cargas de trabajo. Supervise los puntos de conexión de las aplicaciones, evalúe el impacto en los usuarios finales y genere alertas cuando las mediciones superen los umbrales.

    Utilice la supervisión sintética para crear valores controlados (scripts configurables que se ejecutan según una programación) para supervisar los puntos de enlace y las API. Implemente rastros para realizar un seguimiento de las solicitudes a medida que se desplazan por toda la aplicación e identificar cuellos de botella o problemas de rendimiento. Obtenga información sobre los recursos, los servidores, las bases de datos y las redes mediante métricas y registros. Configure el análisis en tiempo real de los datos de serie temporal para comprender las causas del efecto en el rendimiento. Centralice los datos en un único panel para obtener una vista unificada de la información crítica sobre las cargas de trabajo y el rendimiento.

  • Gestión de eventos (AIOps): detecte eventos, evalúe su impacto potencial y determine la acción de control adecuada. Ser capaz de filtrar el ruido, centrarse en los eventos prioritarios, predecir el agotamiento inminente de los recursos, generar alertas e incidentes automáticamente e identificar las causas probables y las acciones correctivas lo ayudarán a mejorar la detección de incidentes y los tiempos de respuesta. Establezca un patrón de tienda de eventos y aproveche el machine learning (AIOps) para automatizar la correlación de eventos, la detección de anomalías y la determinación de causalidad. Intégrese con los servicios en la nube y con las herramientas de terceros, incluso con el sistema y el proceso de gestión de incidentes. Automatice las respuestas a los eventos para reducir los errores causados por los procesos manuales y garantizar respuestas coherentes y rápidas.

  • Administración de incidentes y problemas: restaure rápidamente las operaciones de servicio y minimice el impacto adverso en la empresa. Con la adopción de la nube, los procesos de respuesta a problemas de servicio y de estado de las aplicaciones pueden automatizarse en gran medida, lo que resulta en un mayor tiempo de actividad del servicio. A medida que avanza hacia un modelo operativo más distribuido, la racionalización de las interacciones entre los equipos, las herramientas y los procesos relevantes permiten acelerar la resolución de incidentes críticos o complejos. Defina las rutas de derivación en los runbooks, incluso aquello que desencadena una derivación y los procedimientos de derivación.

    Pruebe unos días la respuesta a incidentes e incorpore las lecciones aprendidas en los runbooks. Identifique los patrones de incidentes para determinar los problemas y las medidas correctivas. Aproveche los chatbots y las herramientas de colaboración para conectar a sus equipos de operaciones, las herramientas y los flujos de trabajo. Aproveche los análisis posteriores a los incidentes sin culpa para identificar los factores que contribuyen a los incidentes y desarrollar los planes de acción correspondientes.

  • Administración de cambios y lanzamientos: introduzca y modifique las cargas de trabajo mientras minimiza el riesgo para los entornos de producción. La administración de lanzamientos tradicional es un proceso complejo que es lento de implementar y difícil de revertir. La adopción de la nube brinda la oportunidad de aprovechar las técnicas de CI/CD para gestionar rápidamente los lanzamientos y las reversiones. Establezca procesos de cambio que permitan flujos de trabajo de aprobación automatizados que se alineen con la agilidad de la nube. Use sistemas de administración de implementaciones para realizar un seguimiento e implementar los cambios. Use cambios frecuentes, pequeños y reversibles para reducir el alcance de un cambio. Pruebe los cambios y valide los resultados en todas las etapas del ciclo de vida para minimizar el riesgo y el impacto de las implementaciones fallidas. Automatice la reversión al estado conocido correcto anterior cuando no se logren resultados para minimizar el tiempo de recuperación y reducir los errores causados por los procesos manuales.

  • Gestión del rendimiento y la capacidad: supervise el rendimiento de la carga de trabajo y asegúrese de que la capacidad cumpla con las demandas actuales y futuras. Si bien la capacidad de la nube es prácticamente ilimitada, las Service Quotas, las reservas de capacidad y las restricciones de recursos restringen la capacidad real de las cargas de trabajo. Estas limitaciones de capacidad deben entenderse y gestionarse de manera eficaz. Identifique a las partes interesadas clave y acuerde los objetivos, el alcance, las metas y las métricas. Recopile y procese datos de rendimiento y revise e informe regularmente sobre el rendimiento en función de los objetivos. Evalúe periódicamente las nuevas tecnologías para mejorar el rendimiento y recomiende cambios en los objetivos y las métricas según corresponda. Supervise la utilización de las cargas de trabajo, cree líneas de referencia para poder realizar comparaciones futuras e identifique los umbrales para ampliar la capacidad según sea necesario. Analice la demanda a lo largo del tiempo para garantizar que la capacidad coincida con las tendencias estacionales y las condiciones operativas fluctuantes.

  • Gestión de la configuración: mantenga un registro preciso y completo de todas las cargas de trabajo en la nube, sus relaciones y los cambios de configuración a lo largo del tiempo. A menos que se administre de manera efectiva, la naturaleza dinámica y virtual del aprovisionamiento de recursos en la nube puede provocar una desviación de la configuración. Defina y aplique un esquema de etiquetado que superponga los atributos de su empresa al uso de la nube. Aproveche las etiquetas para organizar sus recursos en función de las dimensiones técnicas, empresariales y de seguridad. Especifique las etiquetas que sean obligatorias y fuerce el cumplimiento a través de políticas. Aproveche las herramientas de administración de configuración e infraestructura como código (IaC) para el aprovisionamiento de recursos y la administración del ciclo de vida. Establezca líneas de referencia y manténgalas a través del control de versiones.

  • Administración de parches: distribuya y aplique actualizaciones de software de forma sistemática. Las actualizaciones de software abordan las vulnerabilidades de seguridad emergentes, corrigen errores e introducen nuevas características. Un enfoque sistemático de la administración de parches garantizará que se beneficie de las últimas actualizaciones y, al mismo tiempo, minimizará los riesgos para los entornos. Aplique actualizaciones importantes durante el período de mantenimiento especificado y actualizaciones de seguridad críticas lo antes posible. Notifique a los usuarios con antelación los detalles de las próximas actualizaciones y permítales aplazar los parches cuando haya otros controles de mitigación disponibles. Actualice sus imágenes de máquina y los parches de prueba antes de pasar a producción. Para garantizar la disponibilidad continua durante la aplicación de parches, considere ventanas de mantenimiento separadas para cada zona de disponibilidad (AZ) y entorno. Revise regularmente el cumplimiento de los parches y avise a los equipos que no cumplen con los requisitos para que apliquen las actualizaciones requeridas.

  • Administración de disponibilidad y continuidad: garantice la disponibilidad de información, las aplicaciones y los servicios esenciales para la empresa. La creación de soluciones de copia de seguridad habilitadas para la nube requiere tener en cuenta las inversiones en tecnología existentes, los objetivos de recuperación y los recursos disponibles. La restauración oportuna después de desastres y eventos de seguridad permite mantener la disponibilidad del sistema y preservar la continuidad del negocio. Haga una copia de seguridad de sus datos y la documentación siguiendo una programación definida.

    Desarrolle un plan de recuperación de desastres como subconjunto de su plan de continuidad empresarial. Identifique la amenaza, el riesgo, el impacto y el coste de los diferentes escenarios de desastre para cada carga de trabajo y especifique los objetivos de tiempo de recuperación (RTO) y de punto de recuperación (RPO) en consecuencia. Implemente la estrategia de recuperación de desastres que elija aprovechando la arquitectura Multi-AZ o multirregional. Considere aprovechar laingeniería del caos para mejorar la resiliencia y el rendimiento con experimentos controlados. Revise y ponga a prueba sus planes con regularidad y ajuste su enfoque en función de las lecciones aprendidas.

  • Administración de aplicaciones: investigue y corrija los problemas de las aplicaciones en un único panel. La agregación de datos de aplicaciones en una sola consola de administración simplificará la supervisión operativa y acelerará la corrección de los problemas de las aplicaciones al reducir la necesidad de cambiar el contexto entre las diferentes herramientas de administración.

    Intégrese con otros sistemas operativos y de administración, como la administración de carteras de aplicaciones y la CMDB, automatice el descubrimiento de los componentes y recursos de sus aplicaciones, y consolide los datos de las aplicaciones en una sola consola de administración. Incluya componentes de software y recursos de infraestructura, y delinee diferentes entornos, como el desarrollo, el almacenamiento provisional y la producción. Para solucionar los problemas operativos de forma más rápida y coherente, considere la posibilidad de automatizar los runbooks.