AWS Resilience Hub conceptos - AWS Centro de resiliencia

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS Resilience Hub conceptos

Estos conceptos pueden ayudarlo a comprender mejor el enfoque AWS Resilience Hub de la compañía para ayudar a mejorar la resiliencia de las aplicaciones y evitar las interrupciones de las aplicaciones.

Resistencia

La capacidad de mantener la disponibilidad y recuperarse de las interrupciones operativas y del software en un plazo determinado.

Objetivo de punto de recuperación () RPO

La cantidad de tiempo máximo aceptable desde el último punto de recuperación de datos. Esto determina qué se considera una pérdida de datos aceptable entre el último punto de recuperación y la interrupción del servicio.

Objetivo de tiempo de recuperación (RTO)

La demora máxima aceptable entre la interrupción del servicio y el restablecimiento del servicio. Esto determina qué período de tiempo se considera aceptable cuando el servicio no está disponible.

Objetivo de tiempo estimado de recuperación de la carga de trabajo

El objetivo de tiempo estimado de recuperación de la carga de trabajo (carga de trabajo estimadaRTO) es el RTO que se estima que cumplirá su aplicación en función de la definición de aplicación importada y, a continuación, ejecutar una evaluación.

Objetivo de punto de recuperación de carga de trabajo estimado

El objetivo del punto de recuperación de la carga de trabajo estimado (carga de trabajo estimadaRPO) es el RPO que se estima que cumplirá la aplicación en función de la definición de aplicación importada y, a continuación, realizar una evaluación.

Aplicación

Una AWS Resilience Hub aplicación es un conjunto de recursos AWS compatibles que se supervisan y evalúan de forma continua para gestionar su nivel de resiliencia.

Componente de aplicación

Grupo de AWS recursos relacionados que funcionan y fallan como una sola unidad. Por ejemplo, si tiene una base de datos principal y una réplica, ambas bases de datos pertenecen al mismo componente de aplicación (AppComponent).

AWS Resilience Hub determina qué AWS recursos pueden pertenecer a qué tipo de AppComponent. Por ejemplo, un DBInstance puede pertenecer a AWS::ResilienceHub::DatabaseAppComponent pero no a AWS::ResilienceHub::ComputeAppComponent.

Estado de conformidad de la aplicación

AWS Resilience Hub informa de los siguientes tipos de estado de conformidad para sus aplicaciones.

Se cumple la política

Se estima que la aplicación cumple sus RPO objetivos RTO y los definidos en la política. Todos sus componentes cumplen con los objetivos políticos definidos. Por ejemplo, ha seleccionado un RPO objetivo RTO de 24 horas para las interrupciones en todas las AWS regiones. AWS Resilience Hub puede ver que sus copias de seguridad se copian en su región alternativa. Aún así, se espera que mantenga una recuperación a partir de un procedimiento operativo estándar de copia de seguridad (SOP) y que la pruebe y cronometre. Esto se incluye en las recomendaciones operativas y forma parte de su puntuación general de resiliencia.

Política incumplida

No se pudo estimar que la aplicación cumpliera RTO los RPO objetivos definidos en la política. Uno o más de ellos AppComponents no satisfacen los objetivos de la política. Por ejemplo, ha seleccionado un RTO RPO objetivo de 24 horas para las interrupciones en todas las AWS regiones, pero la configuración de la base de datos no incluye ningún método de recuperación entre regiones, como la replicación global y las copias de seguridad.

Sin evaluar

La aplicación requiere una evaluación. Actualmente no se evalúa ni se realiza un seguimiento.

Cambios detectados

Hay una nueva versión publicada de la aplicación que aún no se ha evaluado.

Detección de desviaciones

AWS Resilience Hub envía una notificación de error mientras realiza una evaluación de su aplicación para comprobar si los cambios en AppComponent las configuraciones han afectado al estado de conformidad de la aplicación. Además, también comprueba y detecta cambios, como la adición o eliminación de recursos en las fuentes de entrada de la aplicación, y los notifica al respecto. A modo de comparación, AWS Resilience Hub utiliza la evaluación anterior en la que el componente de la aplicación cumplía con la política. AWS Resilience Hub detecta los siguientes tipos de desviaciones:

  • Desviación en la política de aplicación: este tipo de desviación identifica a todas las personas AppComponents que cumplieron con la política en la evaluación anterior pero que no la cumplieron en la evaluación actual.

  • Desviación de recursos de la aplicación: este tipo de desviación identifica todos los recursos desviados en la versión actual de la aplicación.

Evaluación de resiliencia

AWS Resilience Hub utiliza una lista de deficiencias y posibles soluciones para medir la eficacia de una política seleccionada para recuperarse de un desastre y seguir adelante. Evalúa cada componente de la aplicación o el estado de conformidad de la aplicación con la política. Este informe incluye recomendaciones de optimización de costos y referencias a posibles problemas.

Puntuación de resiliencia

AWS Resilience Hub genera una puntuación que indica en qué medida su solicitud sigue nuestras recomendaciones para cumplir con la política de resiliencia, las alarmas, los procedimientos operativos estándar (SOPs) y las pruebas de la aplicación.

Tipo de interrupción

AWS Resilience Hub le ayuda a evaluar la resiliencia frente a los siguientes tipos de interrupciones:

Aplicación

La infraestructura está en buen estado, pero la pila de aplicaciones o software no funciona según las necesidades. Esto puede suceder después de la implementación de un código nuevo, de cambios en la configuración, de la corrupción de los datos o del mal funcionamiento de las dependencias posteriores.

Infraestructura en la nube

La infraestructura de la nube no funciona como se esperaba debido a una interrupción. Se puede producir una interrupción debido a un error local en uno o más componentes. En la mayoría de los casos, este tipo de interrupción se resuelve reiniciando, reciclando o recargando los componentes defectuosos.

Interrupción de la infraestructura en la nube en zonas de disponibilidad

Una o varias zonas de disponibilidad no están disponibles. Este tipo de interrupción se puede resolver cambiando a una zona de disponibilidad diferente.

Incidente en la región de infraestructura de la nube

Una o más regiones no están disponibles. Este tipo de incidente se puede resolver cambiando a una Región de AWS diferente.

Experimentos de inyección de errores

AWS Resilience Hub recomienda pruebas para verificar la resiliencia de las aplicaciones frente a distintos tipos de interrupciones. Estas interrupciones incluyen las aplicaciones, la infraestructura, las zonas de disponibilidad (AZ) o los incidentes en Región de AWS relacionados con los componentes de la aplicación.

Estos experimentos le permiten hacer lo siguiente:

  • Inyectar un error.

  • Comprobar que las alarmas puedan detectar una interrupción.

  • Verifique que los procedimientos de recuperación, o los procedimientos operativos estándar (SOPs), funcionen correctamente para recuperar la aplicación tras la interrupción.

Pruebas para SOPs medir la carga de trabajo estimada RTO y la carga de trabajo RPO estimada. Puede probar diferentes configuraciones de aplicaciones y medir si el resultado RTO RPO cumple con los objetivos definidos en su política.

SOP

Un procedimiento operativo estándar (SOP) es un conjunto prescriptivo de pasos diseñados para recuperar la aplicación de manera eficiente en caso de que se produzca una interrupción o una alarma. Basado en la evaluación de la aplicación, AWS Resilience Hub recomienda un conjunto de, SOPs y se recomienda prepararlos, probarlos y SOPs medirlos antes de que se produzca una interrupción para garantizar una recuperación oportuna.