Uso de integraciones sin ETL de Aurora con Amazon Redshift - Amazon Aurora

Uso de integraciones sin ETL de Aurora con Amazon Redshift

La integración sin ETL de Aurora con Amazon Redshift permite realizar análisis y machine learning (ML) casi en tiempo real mediante Amazon Redshift en petabytes de datos transaccionales de Aurora. Es una solución totalmente administrada que permite que los datos transaccionales estén disponibles en Amazon Redshift después de escribirlos en un clúster de base de datos de Aurora. La extracción, transformación y carga (ETL) es un proceso en el que se combinan datos de numerosos orígenes en un gran almacenamiento de datos central.

La integración sin ETL hace que los datos del clúster de base de datos de Aurora estén disponibles en Amazon Redshift prácticamente en tiempo real. Una vez que los datos están en Amazon Redshift, puede alimentar sus cargas de trabajo de análisis, ML e IA con las funciones integradas de Amazon Redshift, como el machine learning, las vistas materializadas, el uso compartido de datos, el acceso federado a varios almacenamientos de datos y lagos de datos, y las integraciones con Amazon SageMaker, Amazon QuickSight y otros Servicios de AWS.

Para crear una integración sin ETL, especifique un clúster de base de datos de Aurora como origen y un almacenamiento de datos de Amazon Redshift como destino. La integración replica los datos de la base de datos de origen en el almacenamiento de datos de destino.

El siguiente diagrama ilustra esta funcionalidad:

Una integración sin ETL

La integración supervisa el estado de la canalización de datos y se recupera de los problemas cuando es posible. Es posible crear integraciones a partir de varios clústeres de base de datos de Aurora en un único espacio de nombres de Amazon Redshift, lo que le permite obtener información de varias aplicaciones.

Para obtener información sobre los precios de las integraciones sin ETL, consulte Precios de Amazon Aurora y Precios de Amazon Redshift.

Ventajas

Las integraciones sin ETL de Aurora con Amazon Redshift tienen las siguientes ventajas:

  • Le ayudan a obtener información holística a partir de numerosos orígenes de datos.

  • Eliminan la necesidad de crear y mantener canalizaciones de datos complejas que realicen operaciones de extracción, transformación y carga (ETL). Las integraciones sin ETL eliminan los inconvenientes derivados de la creación y administración de canalizaciones, ya que las aprovisionan y administran por usted.

  • Reducen la carga operativa y los costos para que pueda centrarse en mejorar sus aplicaciones.

  • Le permite aprovechar las capacidades de análisis y aprendizaje automático de Amazon Redshift para obtener información a partir de datos transaccionales y de otro tipo, a fin de responder de manera eficaz a eventos críticos y urgentes.

Conceptos clave

Cuando empiece a utilizar las integraciones sin ETL, tenga en cuenta los siguientes conceptos:

Integración

Una canalización de datos totalmente administrada que replica automáticamente los datos y esquemas transaccionales de un clúster de base de datos de Aurora a un almacenamiento de datos de Amazon Redshift.

Clúster de base de datos de origen

El clúster de base de datos de Aurora desde donde se replican los datos. Para Aurora MySQL, puede especificar un clúster de base de datos que utilice instancias de base de datos aprovisionadas o instancias de base de datos de Aurora Serverless v2 como origen. Para la vista previa de Aurora PostgreSQL, solo puede especificar un clúster que utilice instancias de base de datos aprovisionadas.

Almacenamiento de datos de destino

El almacenamiento de datos de Amazon Redshift en el que se replican los datos. Hay dos tipos de almacenamientos de datos: un almacenamiento de datos de clústeres aprovisionados y un almacenamiento de datos sin servidor. Un almacenamiento de datos de clústeres aprovisionados es una colección de recursos de computación denominados nodos que están organizados en un grupo llamado clúster. Un almacenamiento de datos sin servidor se compone de un grupo de trabajo que almacena los recursos de computación y un espacio de nombres que aloja los objetos y usuarios de la base de datos. Ambos almacenamientos de datos ejecutan un motor de Amazon Redshift y contienen una o más bases de datos.

Múltiples clústeres de base de datos de origen pueden escribir en el mismo destino.

Para obtener más información, consulte Arquitectura del sistema de almacenamiento de datos en la Guía del desarrollador de Amazon Redshift.

Limitaciones

Las siguientes limitaciones se aplican a las integración sin ETL de Aurora con Amazon Redshift.

Limitaciones generales

  • El clúster de base de datos de origen debe estar en la misma región que el almacenamiento de datos de destino de Amazon Redshift.

  • No puede cambiar el nombre de un clúster de base de datos ni ninguna de sus instancias si ya tiene integraciones.

  • No se pueden crear varias integraciones entre las mismas bases de datos de origen y de destino.

  • No puede eliminar un clúster de base de datos que ya tenga integraciones. Primero debes eliminar todas las integraciones asociadas.

  • Si detiene el clúster de base de datos de origen, es posible que las últimas transacciones no se repliquen en el almacenamiento de datos de destino hasta que reanude el clúster.

  • Si el clúster es el origen de una implementación azul/verde, los entornos azul y verde no pueden tener integraciones sin ETL existentes durante la transición. Primero debe eliminar la integración, realizar la transición y, a continuación, volver a crear la integración.

  • Un clúster de base de datos debe contener al menos una instancia de base de datos para ser el origen de una integración.

  • Si el clúster de origen es el clúster de base de datos primario de una base de datos global de Aurora y se cambia por error a uno de sus clústeres secundarios, la integración queda inactiva. Debe eliminar y volver a crear la integración.

  • No puede crear una integración para una base de datos de origen en la que se esté creando otra integración de forma activa.

  • Cuando se crea una integración por primera vez, o cuando se vuelve a sincronizar una tabla, la transferencia de datos del origen al destino puede tardar entre 20 y 25 minutos o más, en función del tamaño de la base de datos de origen. Este retardo puede provocar un aumento del retardo en la réplica.

  • Algunos tipos de datos no son compatibles. Para obtener más información, consulte Diferencias de tipos de datos entre las bases de datos Aurora y Amazon Redshift .

  • No se admiten transacciones XA.

  • Los identificadores de objetos (incluidos el nombre de la base de datos, el nombre de la tabla, los nombres de las columnas y otros) solo pueden contener caracteres alfanuméricos, números, $ y _ (guion bajo).

  • Las tablas del sistema, las tablas temporales y las vistas no se replican en Amazon Redshift.

Limitaciones de Aurora MySQL

  • El clúster de base de datos de origen debe ejecutar una versión compatible de Aurora MySQL. Para obtener una lista de las versiones compatibles, consulte Regiones y motores de base de datos Aurora admitidos para integraciones sin ETL con Amazon Redshift.

  • Las integraciones sin ETL se basan en el registro binario de MySQL (binlog) para capturar los cambios en los datos en curso. No utilice el filtrado de datos basado en binlog, ya que puede provocar incoherencias entre los datos de las bases de datos de origen y de destino.

  • Las integraciones sin ETL solo son compatibles con bases de datos configuradas para usar el motor de almacenamiento de InnoDB.

  • No se admiten referencias de clave externas con actualizaciones de tablas predefinidas. En concreto, las reglas ON DELETE y ON UPDATE no son compatibles con las acciones CASCADE, SET NULL y SET DEFAULT. Si se intenta crear o actualizar una tabla con este tipo de referencias a otra tabla, se producirá un error en la tabla.

  • Las operaciones de partición de ALTER TABLE provocan que se vuelva a sincronizar su tabla para cargar los datos de Aurora de nuevo en Amazon Redshift. Durante este proceso, la tabla no se podrá consultar. Para obtener más información, consulte Una o más de mis tablas de Amazon Redshift requieren una resincronización.

Limitaciones de la vista previa de Aurora PostgreSQL

importante

Fin de la vista previa: la vista previa de las integraciones sin ETL de Amazon PostgreSQL con Amazon Redshift ha finalizado. Agradecemos su participación y sus comentarios. No se pierda las novedades sobre la disponibilidad y las mejoras de la característica.

  • El clúster de base de datos de origen debe ejecutar Aurora PostgreSQL (compatible con PostgreSQL 15.4 y con compatibilidad sin ETL).

  • Solo puede crear y administrar integraciones sin ETL para Aurora PostgreSQL en el entorno de vista previa de bases de datos de Amazon RDS, en la Región de AWS de Este de EE. UU. (Ohio) (us-east-2). Puede usar el entorno de vista previa para probar la versión beta, la versión candidata y las primeras versiones de producción del software del motor de bases de datos PostgreSQL.

  • Solamente puede crear y administrar integraciones para Aurora PostgreSQL mediante la AWS Management Console. No puede utilizar la AWS Command Line Interface (AWS CLI), la API de Amazon RDS ni ninguno de los SDK de AWS.

  • Al crear un clúster de base de datos de origen, el grupo de parámetros que elija ya debe tener configurados los valores de parámetros del clúster de base de datos necesarios. No puede crear un nuevo grupo de parámetros posteriormente y asociarlo después al clúster. Para obtener una lista completa de los parámetros requeridos, consulte Crear un grupo de parámetros de clúster de base de datos personalizado.

  • No puede modificar una integración después de crearla. Si necesita cambiar algún ajuste, debe eliminar y volver a crear la integración.

  • Actualmente, los clústeres de bases de datos de Aurora PostgreSQL que son el origen de una integración no realizan la recopilación de elementos no utilizados de datos de replicación lógica.

  • Todas las bases de datos creadas en el clúster de base de datos de Aurora PostgreSQL de origen deben utilizar la codificación UTF-8.

  • Las integraciones sin ETL con Aurora PostgreSQL no admiten lo siguiente:

    • Instancias de base de datos de Aurora Serverless v2. El clúster de base de datos de origen debe usar instancias de base de datos aprovisionadas.

    • Tipos de datos personalizados o tipos de datos creados por extensiones.

    • Subtransacciones en el clúster de base de datos de origen.

    • Cambios de nombre de esquemas o bases de datos dentro de un clúster de base de datos de origen.

    • Restauración a partir de una instantánea de un clúster de base de datos o mediante la clonación de Aurora para crear un clúster de base de datos de origen. Si desea incluir los datos existentes en un clúster de vista previa, debe emplear las utilidades pg_dump o pg_restore.

    • Creación de ranuras de replicación lógica en la instancia de escritor del clúster de base de datos de origen.

    • Valores de campo grandes que requieren la técnica de almacenamiento de atributos sobredimensionados (TOAST).

    • Operaciones de partición ALTER TABLE. Estas operaciones pueden hacer que la tabla se vuelva a sincronizar y acabe entrando en un estado Failed. Si se produce un error en una tabla, debe descartarla y volver a crearla.

Limitaciones de Amazon Redshift

Para obtener una lista de limitaciones de Amazon Redshift relacionadas con las integraciones sin ETL, consulte la sección Consideraciones de la Guía de administración de Amazon Redshift.

Cuotas

Su cuenta tiene las siguientes cuotas relacionadas con las integraciones sin ETL de Aurora con Amazon Redshift. Cada una de las cuotas se aplica a una sola región, a no ser que se especifique otra cosa.

Nombre Predeterminado Descripción
Integraciones 100 El número total de integraciones dentro de una Cuenta de AWS.
Integraciones por almacenamiento de datos de destino 50 El número de integraciones que envían datos a un único almacenamiento de datos de Amazon Redshift de destino.
Integraciones por clúster de origen 5 para Aurora MySQL, 1 para Aurora PostgreSQL La cantidad de integraciones que envían datos desde un solo clúster de base de datos de origen.

Además, Amazon Redshift establece algunos límites en la cantidad de tablas permitidas en cada instancia de base de datos o nodo de clúster. Para obtener más información, consulte Cuotas y límites de Amazon Redshift en la Guía de administración de Amazon Redshift.

Regiones admitidas

Las integraciones sin ETL de Aurora con Amazon Redshift están disponibles en un subconjunto de Regiones de AWS. Para obtener una lista de las regiones admitidas, consulte Regiones y motores de base de datos Aurora admitidos para integraciones sin ETL con Amazon Redshift.