Partizione dei dati di streaming in Amazon Data Firehose

Il partizionamento dinamico consente di partizionare continuamente i dati in streaming in Firehose utilizzando chiavi all'interno dei dati (ad esempio, customer_id otransaction_id) e quindi fornire i dati raggruppati da queste chiavi nei prefissi Amazon Simple Storage Service (Amazon S3) corrispondenti. Ciò semplifica l'esecuzione di analisi ad alte prestazioni ed economiche sui dati in streaming in Amazon S3 utilizzando vari servizi come Amazon Athena, Amazon EMR, Amazon Redshift Spectrum e Amazon. QuickSight Inoltre, AWS Glue può eseguire lavori di estrazione, trasformazione e caricamento (ETL) più sofisticati dopo che i dati di streaming partizionati dinamicamente sono stati consegnati ad Amazon S3, in casi d'uso in cui è richiesta un'ulteriore elaborazione.

Il partizionamento dei dati riduce al minimo la quantità di dati scansionati, ottimizza le prestazioni e riduce i costi delle query di analisi su Amazon S3. Inoltre, aumenta l'accesso granulare ai dati. I flussi Firehose vengono tradizionalmente utilizzati per acquisire e caricare dati in Amazon S3. Per partizionare un set di dati in streaming per l'analisi basata su Amazon S3, è necessario eseguire il partizionamento di applicazioni tra i bucket Amazon S3 prima di rendere i dati disponibili per l'analisi, operazione che potrebbe diventare complicata o costosa.

Con il partizionamento dinamico, Firehose raggruppa continuamente i dati in transito utilizzando chiavi dati definite dinamicamente o staticamente e fornisce i dati ai singoli prefissi Amazon S3 per chiave. time-to-insightCiò si riduce di minuti o ore. Inoltre, riduce i costi e semplifica le architetture.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esegui il backup dei record di origine

Abilita il partizionamento dinamico