Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Si habilita la conversión de formatos de registros, no podrá definir el destino de Amazon Data Firehose en Amazon OpenSearch Service, Amazon Redshift ni Splunk. Una vez habilitada la conversión de formatos, Amazon S3 es el único destino que se puede utilizar para el flujo de Firehose. En la siguiente sección, se muestra cómo habilitar la conversión del formato de registros desde la consola y desde las operaciones de la API de Firehose. Para ver un ejemplo de cómo configurar la conversión de formatos de registros con AWS CloudFormation, consulte AWS::DataFirehose::DeliveryStream.
Habilitar la conversión de formatos de registros desde la consola
Puede habilitar la conversión del formato de datos en la consola al crear o actualizar un flujo de Firehose. Una vez habilitada la conversión de formatos de datos, Amazon S3 es el único destino que se puede configurar para el flujo de Firehose. Además, la compresión de Amazon S3 se deshabilita al habilitar la conversión de formatos. Sin embargo, la compresión Snappy se realiza automáticamente como parte del proceso de conversión. El formato de trama de Snappy que Amazon Data Firehose utiliza en este caso es compatible con Hadoop. Esto significa que puede utilizar los resultados de la compresión de Snappy y ejecutar consultas con estos datos en Athena. Para ver el formato de trama de Snappy que Hadoop utiliza, consulte BlockCompressorStream.java
Habilitación de la conversión del formato de datos de un flujo de datos de Firehose
-
Inicie sesión en la AWS Management Console y abra la consola de Amazon Data Firehose en https://console.aws.amazon.com/firehose/
. -
Elija un flujo de Firehose que desee actualizar o cree uno nuevo siguiendo los pasos descritos en Tutorial: Crear un flujo de Firehose desde la consola.
-
En Convert record format (Convertir formato de registro), establezca Record format conversion (Conversión del formato de registro) en Enabled (Habilitado).
-
Elija el formato de salida que desea utilizar. Para obtener más información acerca de las dos opciones, consulte Apache Parquet
y Apache ORC . -
Elija una tabla de AWS Glue para especificar un esquema para los registros de origen. Establezca la región, la base de datos, la tabla y la versión de la tabla.
Gestión de la conversión de formatos de registro desde la API de Firehose
Si desea que Amazon Data Firehose convierta el formato de los datos de entrada de JSON a Parquet u ORC, especifique el elemento DataFormatConversionConfiguration opcional en ExtendedS3DestinationConfiguration o en ExtendedS3DestinationUpdate. Si especifica DataFormatConversionConfiguration, se aplican las siguientes restricciones.
-
En BufferingHints, no puede establecer
SizeInMBs
en un valor inferior a 64 si habilita la conversión del formato de registros. Además, si la conversión de formato no está habilitada, el valor predeterminado es 5. El valor pasa a ser 128 cuando se habilita. -
Debe establecer
CompressionFormat
del tipo de datos ExtendedS3DestinationConfiguration o ExtendedS3DestinationUpdate enUNCOMPRESSED
. El valor predeterminado deCompressionFormat
esUNCOMPRESSED
. Por lo tanto, también puede dejarlo sin especificar en ExtendedS3DestinationConfiguration. Los datos se siguen comprimiendo como parte del proceso de serialización utilizando la compresión Snappy de forma predeterminada. El formato de trama de Snappy que Amazon Data Firehose utiliza en este caso es compatible con Hadoop. Esto significa que puede utilizar los resultados de la compresión de Snappy y ejecutar consultas con estos datos en Athena. Para ver el formato de trama de Snappy que Hadoop utiliza, consulte BlockCompressorStream.java. Al configurar el serializador, puede elegir otros tipos de compresión.