La entrega de transmisiones de Amazon Data Firehose a Apache Iceberg Tables en Amazon S3 está en versión preliminar y está sujeta a cambios.
Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Particione los datos de streaming en Amazon Data Firehose
El particionamiento dinámico le permite particionar continuamente los datos de streaming en Firehose mediante claves dentro de los datos (por ejemplocustomer_id
, transaction_id
o) y, a continuación, entregar los datos agrupados por estas claves en los prefijos correspondientes del Amazon Simple Storage Service (Amazon S3). Esto facilita la ejecución de análisis rentables y de alto rendimiento sobre datos de streaming en Amazon S3 mediante diversos servicios, como Amazon Athena, Amazon, EMR Amazon Redshift Spectrum y Amazon. QuickSight Además, AWS Glue puede realizar tareas de extracción, transformación y carga (ETL) más sofisticadas después de que los datos de streaming particionados dinámicamente se entreguen a Amazon S3, en casos de uso en los que se requiera un procesamiento adicional.
El particionamiento de los datos minimiza la cantidad de datos analizados, optimiza el rendimiento y reduce los costos de las consultas de análisis en Amazon S3. También aumenta el acceso granular a los datos. Las transmisiones Firehose se utilizan tradicionalmente para capturar y cargar datos en Amazon S3. Para particionar un conjunto de datos de streaming con el objetivo de llevar a cabo análisis basados en Amazon S3, tendría que ejecutar aplicaciones de particionamiento entre buckets de Amazon S3 antes de hacer que los datos estén disponibles para su análisis, lo que podría resultar complicado o costoso.
Con el particionamiento dinámico, Firehose agrupa continuamente los datos en tránsito mediante claves de datos definidas de forma dinámica o estática y entrega los datos a los prefijos individuales de Amazon S3 por clave. Esto se reduce time-to-insight en minutos u horas. También reduce los costos y simplifica las arquitecturas.
Temas
- Habilite el particionamiento dinámico en Amazon Data Firehose
- Comprenda las claves de particionamiento
- Use el prefijo de bucket de Amazon S3 para entregar datos
- Aplique la partición dinámica a los datos agregados
- Solucione los errores de particionamiento dinámico
- Datos del búfer para el particionamiento dinámico