Ottimizzazione della compattazione

I data lake Amazon S3 che utilizzano formati di tabelle aperte come Apache Iceberg archiviano i dati come oggetti S3. La presenza di migliaia di piccoli oggetti Amazon S3 in una tabella di data lake aumenta il sovraccarico dei metadati e influisce sulle prestazioni di lettura. AWS Glue Data Catalog fornisce una compattazione gestita per le tabelle Iceberg, compattando oggetti di piccole dimensioni in oggetti più grandi per migliorare le prestazioni di lettura tramite servizi di AWS analisi come Amazon Athena Amazon EMR ed ETL. AWS Glue Data Catalog esegue la compattazione senza interferire con le query simultanee e supporta la compattazione solo per le tabelle in formato Parquet.

L'ottimizzatore delle tabelle monitora continuamente le partizioni delle tabelle e avvia il processo di compattazione quando viene superata la soglia per il numero di file e le dimensioni dei file.

Nel Data Catalog, il processo di compattazione inizia quando una tabella o una delle sue partizioni contiene più di 100 file. Ogni file deve essere inferiore al 75% della dimensione del file di destinazione. La dimensione del file di destinazione è definita dalla proprietà write.target-file-size-bytes table, che per impostazione predefinita è 512 MB se non è impostata in modo esplicito.

Per le limitazioni, consulta Formati e limitazioni supportati per la compattazione gestita dei dati .

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Disabilitazione dell'ottimizzazione delle tabelle a livello di catalogo

Attivazione dell'ottimizzatore della compattazione