Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de los ajustes de destino
nota
Firehose admite la base de datos como fuente en todas las regiones excepto en Regiones de AWSChina y Asia Pacífico (Malasia). AWS GovCloud (US) Regions Esta función está en versión preliminar y está sujeta a cambios. No la utilice para sus cargas de trabajo de producción.
Firehose admite la entrega de cambios en las bases de datos a las tablas Iceberg de Apache. Configura los siguientes ajustes de destino para configurar la transmisión de Firehose con la base de datos como fuente.
Conectar catálogo de datos
Apache Iceberg requiere un catálogo de datos para escribir en las tablas de Apache Iceberg. Firehose se integra con AWS Glue Data Catalog las tablas Apache Iceberg. Puede usar AWS Glue Data Catalog en la misma cuenta que el flujo de Firehose o en una cuenta cruzada y en la misma región que el flujo de Firehose (predeterminado), o en una región diferente.
Habilita la creación automática de tablas
Si habilitas esta opción, Firehose crea automáticamente las bases de datos, tablas y columnas necesarias en tu destino de destino con el mismo nombre y esquema que las bases de datos de origen. Si activas esta opción y Firehose encuentra algunas tablas con el mismo nombre y esquema ya presentes, usará esas tablas existentes en su lugar y creará solo las bases de datos, tablas y columnas que falten.
Si no habilitas esta opción, Firehose intentará encontrar las bases de datos, tablas y columnas necesarias. Si Firehose no los encuentra, genera un error y envía los datos al depósito de errores de S3.
nota
Para que Firehose entregue los datos a Iceberg Tables correctamente, los nombres de la base de datos, las tablas y las columnas junto con el esquema deben coincidir completamente. Si los nombres de los objetos y esquemas de la base de datos no coinciden, Firehose genera un error y envía los datos a un depósito de errores de S3.
Para las bases de datos MySQL, la base de datos de origen se asigna a la AWS Glue base de datos y la tabla de origen se asigna a AWS Glue la tabla.
Para PostgreSQL, la base de datos de origen se asigna AWS Glue a Database y la tabla de origen se asigna AWS Glue a Table con el nombre de. SchemaName_TableName
nota
En el caso de Amazon S3 Tables, Firehose no admite la creación automática de tablas. Debes crear tablas S3 antes de crear una transmisión de Firehose.
Habilite la evolución del esquema
Si habilitas esta opción, Firehose evoluciona automáticamente el esquema de Apache Iceberg Tables cuando cambia el esquema de origen. Como parte de la evolución del esquema, Firehose actualmente admite la adición de nuevas columnas. Por ejemplo, si se añade una nueva columna a una tabla en la base de datos de origen, Firehose toma automáticamente esos cambios y añade la nueva columna a la tabla Iceberg de Apache correspondiente.
Especificación de duración de reintento
Puede usar esta configuración para especificar el tiempo en segundos durante el que Firehose debe volver a intentarlo si encuentra errores al escribir en las tablas de Apache Iceberg en Amazon S3. Puede establecer cualquier valor entre 0 y 7200 segundos para realizar los reintentos. De forma predeterminada, Firehose vuelve a intentarlo durante 300 segundos.
Gestión de la entrega o el procesamiento fallidos
Debe configurar Firehose para que entregue los registros a un depósito de respaldo de S3 en caso de que no procese o entregue una transmisión una vez transcurrido el tiempo de reintento. Para ello, configura el depósito de respaldo de S3 y el prefijo de salida de error del depósito de respaldo de S3.
Configuración de sugerencias de búfer
Firehose almacena en búfer una cantidad determinada de datos de streaming de entrada (Tamaño del almacenamiento en búfer) y durante un periodo determinado (Intervalo de almacenamiento en búfer) antes de entregarlos en las tablas de Apache Iceberg. Puede elegir un tamaño de búfer de 1 a 128 MiBs y un intervalo de búfer de 0 a 900 segundos. Las sugerencias de búfer más altas dan como resultado menos escrituras en S3, un menor coste de compactación debido a que los archivos de datos son más grandes y un tiempo de ejecución de consultas más rápido, pero con una latencia más alta. Los valores de sugerencia de búfer más bajos proporcionan los datos con una latencia más baja.
Configuración de opciones avanzadas
Para realizar ajustes avanzados, puede configurar el cifrado del lado del servidor, el registro de errores, los permisos y las etiquetas para las tablas Iceberg de Apache. Para obtener más información, consulte Configuración de opciones avanzadas. Debe añadir la función de IAM que creó como parte de las Conceda a Firehose acceso para replicar los cambios de la base de datos en las tablas Iceberg de Apache tablas Iceberg de Apache como destino. Firehose asumirá la función de acceder a AWS Glue las tablas y escribir en los buckets de Amazon S3.
Le recomendamos encarecidamente que habilite los registros. CloudWatch Si hay algún problema con Firehose al conectarse a las bases de datos o al tomar una instantánea de las tablas, Firehose arroja un error y registra los registros en los registros configurados. Este es el único mecanismo que le informa sobre los errores.
La creación del flujo de Firehose puede tardar varios minutos en completarse. Después de crear correctamente el flujo de Firehose, puede empezar a ingerir datos en este y verlos en las tablas de Apache Iceberg.
nota
Configure solo una transmisión de Firehose para una base de datos. Al tener varios flujos Firehose para una base de datos, se crean varios conectores a la base de datos, lo que afecta al rendimiento de la base de datos.
Una vez que se haya creado un Firehose Streams, el estado inicial de las tablas existentes será snapshot IN_PROGRESS. No cambies el esquema de la tabla de origen cuando el estado de la instantánea esté establecido en IN_PROGRESS. Si cambias el esquema de la tabla cuando la instantánea está en curso, Firehose omite la instantánea de la tabla. Cuando se completa el proceso de la instantánea, su estado cambia a COMPLETADO.