Evacuación de una región activa Evacuación de una región sin conexión

Procesos de evacuación para mesas globales

La evacuación de una región es el proceso de migrar una actividad (normalmente actividad de escritura, posiblemente actividad de lectura) fuera de esa región.

Evacuación de una región activa

Puede decidir evacuar una región activa por varios motivos: como parte de su actividad empresarial habitual (por ejemplo, si utiliza un modo de escribir a una región) follow-the-sun, debido a una decisión empresarial de cambiar la región actualmente activa, en respuesta a fallos en el paquete de software ajeno a DynamoDB o porque se encuentra con problemas generales, como latencias más altas de lo habitual dentro de la región.

Con el modo de escritura en cualquier región, evacuar una región activa es sencillo. Puede enrutar el tráfico a regiones alternativas mediante cualquier sistema de enrutamiento y dejar que las operaciones de escritura en la región evacuada se repliquen como de costumbre.

Los modos escribir en una región y escribir en su región se utilizan normalmente con las tablas MREC. Por lo tanto, debe asegurarse de que todas las operaciones de escritura en la región activa se hayan registrado por completo, se hayan procesado en flujo y se hayan propagado globalmente antes de iniciar las operaciones de escritura en la nueva región activa, para garantizar que las futuras operaciones de escritura se procesen con la última versión de los datos.

Supongamos que la región A es activa y la región B es pasiva (para la tabla completa o para los elementos asignados a la región A). El mecanismo típico para llevar a cabo una evacuación consiste en pausar las operaciones de escritura en A, esperar el tiempo suficiente para que esas operaciones se hayan propagado completamente a B, actualizar la pila de la arquitectura para que reconozca B como activa y, a continuación, reanudar las operaciones de escritura en B. No existe ninguna métrica que indique con absoluta certeza que la región A ha replicado completamente sus datos a la región B. Si la región A está en buen estado, pausar las operaciones de escritura en la región A y esperar diez veces el valor máximo reciente de la métrica ReplicationLatency normalmente sería suficiente para determinar que la replicación se ha completado. Si el estado de la región A no es correcto y muestra otras zonas de latencias aumentadas, elegiría un múltiplo mayor para el tiempo de espera.

Evacuación de una región sin conexión

Hay un caso especial a tener en cuenta: ¿qué pasa si la región A se desconecta por completo sin previo aviso? Esto es muy poco probable, pero debe tenerse en cuenta de todos modos.

Evacuación de una mesa MRSC desconectada

Si esto ocurre con una tabla MRSC, no hay nada especial que deba hacer. Las tablas MRSC admiten un objetivo de punto de recuperación (RPO) igual a cero. Todas las operaciones de escritura correctas que se realicen en la tabla MRSC de la región sin conexión estarán disponibles en todas las demás tablas de regiones, por lo que no se producirán posibles lagunas en los datos aunque la región pase a estar totalmente desconectada sin previo aviso. Las empresas pueden seguir utilizando réplicas ubicadas en las demás regiones.

Evacuar una mesa MREC desconectada

Si esto ocurre con una tabla MREC, cualquier operación de escritura en la región A que aún no se haya propagado se retendrá y se propagará cuando la región A vuelva a estar en línea. Las operaciones de escritura no se pierden, pero su propagación se retrasa indefinidamente.

La aplicación decide cómo continuar en este caso. Por motivos de continuidad empresarial, es posible que las operaciones de escritura deban continuar hacia la nueva región primaria B. No obstante, si un elemento de la región B recibe una actualización mientras hay una propagación pendiente de una operación de escritura para ese elemento desde la región A, la propagación se suprime según el modelo de último escritor gana. Cualquier actualización en la región B podría suprimir una solicitud de escritura entrante.

Con el modo de escritura en cualquier región, las operaciones de lectura y escritura pueden continuar en la región B, confiando en que los elementos de la región A se propagarán eventualmente a la región B y reconociendo la posibilidad de que falten elementos hasta que la región A vuelva a funcionar. Siempre que sea posible, por ejemplo, con operaciones de escritura idempotentes, debería plantearse la posibilidad de reproducir el tráfico de escritura reciente (por ejemplo, mediante una fuente de eventos ascendente) para cubrir el vacío de cualquier operación de escritura que pueda faltar y dejar que el último escritor gane. La resolución de conflictos suprima la eventual propagación de la operación de escritura entrante.

En el caso de los demás modos de escritura, hay que tener en cuenta hasta qué punto se puede continuar trabajando con una ligera out-of-date visión del mundo. Faltará una pequeña duración de las operaciones de escritura, según el seguimiento de ReplicationLatency, hasta que la región A vuelva a estar en línea. ¿Puede avanzar la actividad? En algunos casos de uso puede que sí, pero en otros puede que no si no hay mecanismos de mitigación adicionales.

Por ejemplo, imagine que tiene que mantener un saldo de crédito disponible sin interrupción incluso después de una interrupción total en una región. Podrías dividir el saldo en dos partidas diferentes, una reservada en la región A y otra en la región B, y empezar cada una con la mitad del saldo disponible. De este modo, se utilizaría el modo de escritura en su región. Las actualizaciones transaccionales procesadas en cada región se escribirían según la copia local del saldo. Si la región A se queda totalmente fuera de línea, se podría seguir trabajando con el procesamiento de transacciones en la región B y las operaciones de escritura se limitarían a la parte del saldo que se mantiene en la región B. Dividir el saldo de esta manera conlleva complejidades cuando el saldo baja o hay que reequilibrar el crédito, pero proporciona un ejemplo de recuperación segura de la actividad incluso con operaciones de escritura pendientes inciertas.

Como otro ejemplo, imagina que estás capturando datos de formularios web. Puede usar el control de simultaneidad optimista (OCC) para asignar versiones a los elementos de datos e incrustar la última versión en el formulario web como un campo oculto. En cada envío, la operación de escritura solo se realiza correctamente si la versión de la base de datos sigue coincidiendo con la versión con la que se creó el formulario. Si las versiones no coinciden, el formulario web puede actualizarse (o combinarse cuidadosamente) en función de la versión actual de la base de datos y el usuario puede continuar de nuevo. El modelo OCC suele proteger contra el hecho de que otro cliente sobrescriba los datos y produzca una nueva versión de ellos, pero también puede ser de ayuda durante la conmutación por error, cuando un cliente puede encontrarse con versiones más antiguas de los datos. Imaginemos que utiliza la marca de tiempo como versión. El formulario se creó por primera vez para la región A a las 12:00 pero (tras una conmutación por error) intenta escribir en la región B y observa que la última versión de la base de datos es a las 11:59. En este escenario, el cliente puede esperar a que la versión de las 12:00 se propague a la región B y escribir en esa versión, o basarse en la de las 11:59 y crear una nueva versión de las 12:01 (que, después de la escritura, suprimiría la versión entrante una vez que se recupere la región A).

Como tercer ejemplo, una empresa de servicios financieros guarda datos sobre las cuentas de los clientes y sus transacciones financieras en una base de datos de DynamoDB. En el caso de que se produzca una interrupción total en la Región A, querrá asegurarse de que cualquier actividad de escritura relacionada con sus cuentas esté totalmente disponible en la Región B, o bien poner sus cuentas en cuarentena, de forma parcial, hasta que la Región A vuelva a funcionar. En lugar de pausar toda la actividad, decide pausarla solo para la minúscula fracción de cuentas que ha determinado que tienen transacciones no propagadas. Para lograrlo, utilizan una tercera región, a la que llamaremos región C. Antes de procesar cualquier operación de escritura en la región A, incluyen un resumen sucinto de esas operaciones pendientes (por ejemplo, un nuevo recuento de transacciones para una cuenta) en la región C. Este resumen es suficiente para que la región B determine si su vista está totalmente actualizada. Esta acción bloquea de un modo efectivo la cuenta desde el momento de la escritura en la región C hasta que la región A acepta las operaciones de escritura y la región B las recibe. Los datos de la región C no se utilizan excepto como parte de un proceso de conmutación por error, tras el cual la región B puede cruzar sus datos con los de la región C para comprobar si alguna de sus cuentas está desactualizada. Esas cuentas se marcarían como puestas en cuarentena hasta que la empresa de recuperación de la región A propagase los datos parciales a la región B. Si la región C fallara, se podría crear una nueva región D para utilizarla en su lugar. Los datos de la región C eran muy transitorios y, al cabo de unos minutos, la región D tendría un up-to-date registro suficiente de las operaciones de escritura durante el vuelo como para ser totalmente útil. Si se produce un error en la región B, la región A puede seguir aceptando solicitudes de escritura en cooperación con la región C. Esta empresa estaba dispuesta a aceptar escrituras de latencia más alta (a dos regiones: C y luego A) y tuvo la suerte de contar con un modelo de datos en el que se podía resumir sucintamente el estado de una cuenta.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Enrutamiento de solicitudes de Global Accelerator

Planificación de la capacidad de rendimiento