REL13-BP03 Probar la implementación de recuperación de desastres para validarla
Compruebe periódicamente la conmutación por error a su sitio de recuperación para verificar que funcione adecuadamente y que se cumplan el RTO y el RPO.
Antipatrones usuales:
-
No llevar a cabo nunca conmutaciones por error en producción.
Beneficios de establecer esta práctica recomendada: las pruebas periódicas del plan de recuperación de desastres verifican que el plan funcione cuando llegue el momento y que su equipo sepa cómo ejecutar la estrategia.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: alto
Guía para la implementación
Un patrón que debe evitarse es el desarrollo de rutas de recuperación que se pongan en práctica pocas veces. Por ejemplo, puede tener un almacén de datos secundario que se utilice para consultas de solo lectura. Cuando escribe en un almacén de datos y el almacén principal falla, es posible que quiera conmutar por error al almacén de datos secundario. Si no se prueba frecuentemente esta conmutación por error, es posible que sus suposiciones sobre las capacidades del almacén de datos secundario sean incorrectas. Es posible que la capacidad del almacén de datos secundario, que quizás fuera suficiente cuando se probó por última vez, ya no pueda tolerar la carga en esta situación. Nuestra experiencia ha demostrado que la única forma de recuperación de errores que funciona es aquella que prueba constantemente. Por ello, es mejor tener un número reducido de rutas de recuperación. Puede establecer patrones de recuperación y probarlos con frecuencia. Si tiene una ruta de recuperación compleja o crítica, todavía debe llevar a efecto ese error en producción periódicamente para asegurarse de que la ruta funcione. En el ejemplo que acabamos de comentar, se debe conmutar por error al modo de espera con regularidad, sin importar si es necesario.
Pasos para la implementación
Diseñe sus cargas de trabajo para que se puedan recuperar. Pruebe regularmente sus rutas de recuperación. La computación orientada a la recuperación identifica las características de los sistemas que mejoran la recuperación: aislamiento y redundancia, capacidad en todo el sistema para revertir los cambios, capacidad para supervisar y determinar el estado, capacidad para proporcionar diagnósticos, recuperación automatizada, diseño modular y capacidad para reiniciar. Ponga en práctica la ruta de recuperación para verificar que pueda cumplir la recuperación en el tiempo especificado para el estado especificado. Use sus runbooks durante esta recuperación para documentar los problemas y encontrar soluciones para ellos antes de la próxima prueba.
Para cargas de trabajo basadas en Amazon EC2, utilice AWS Elastic Disaster Recovery para implementar y lanzar instancias de simulacro para su estrategia de recuperación de desastres. AWS Elastic Disaster Recovery ofrece la posibilidad de ejecutar simulacros de manera eficiente, lo que le ayuda a prepararse para un evento de conmutación por error. También puede lanzar con frecuencia sus instancias mediante Elastic Disaster Recovery para realizar pruebas y simulacros sin redirigir el tráfico.
Recursos
Documentos relacionados:
-
Socio de APN: socios que pueden ayudar con la recuperación de desastres
-
AWS Architecture Blog: Disaster Recovery Series
(Blog de arquitectura de AWS: serie de recuperación de desastres) -
AWS Marketplace: products that can be used for disaster recovery
(AWS Marketplace: productos que pueden usarse para la recuperación de desastres) -
AWS Elastic Disaster Recovery Preparing for Failover (AWS Elastic Disaster Recovery: Preparación para la conmutación por error)
-
Proyecto de informática orientada a la recuperación de Berkeley/Stanford
Vídeos relacionados:
-
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(AWS re:Invent 2018: Patrones de arquitectura para aplicaciones activas-activas en varias regiones) -
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS
(AWS re:Invent 2019: Copia de seguridad y restauración y soluciones de recuperación de desastres con AWS)
Ejemplos relacionados:
-
Well-Architected Lab - Testing for Resiliency
(Laboratorio de Well-Architected: Prueba de resiliencia)