Gestione della compattazione - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Gestione della compattazione

I data lake Amazon S3 che utilizzano formati di tabelle aperte come Apache Iceberg archiviano i dati come oggetti S3. La presenza di migliaia di piccoli oggetti Amazon S3 in una tabella di data lake aumenta il sovraccarico dei metadati e influisce sulle prestazioni di lettura. AWS Glue Data Catalog fornisce una compattazione gestita per le tabelle Iceberg, compattando oggetti di piccole dimensioni in oggetti più grandi per migliorare le prestazioni di lettura tramite servizi di AWS analisi come Amazon Athena Amazon EMR ed ETL. AWS Glue Data Catalog esegue la compattazione senza interferire con le query simultanee e supporta la compattazione solo per le tabelle in formato Parquet.

L'ottimizzatore delle tabelle monitora continuamente le partizioni delle tabelle e avvia il processo di compattazione quando viene superata la soglia per il numero di file e le dimensioni dei file. Una tabella Iceberg si qualifica per la compattazione se la dimensione del file è specificata nella scrittura. target-file-size-bytes la proprietà rientra nell'intervallo da 128 MB a 512 MB. Nel Data Catalog, il processo di compattazione inizia se la tabella contiene più di cinque file, ciascuno inferiore al 75% della scrittura. target-file-size-bytes proprietà.

Ad esempio, si dispone di una tabella con la soglia di dimensione del file impostata su 512 MB in fase di scrittura. target-file-size-bytes proprietà (nell'intervallo prescritto compreso tra 128 MB e 512 MB) e la tabella contiene 10 file. Se 6 dei 10 file sono inferiori a 384 MB (.75*512) ciascuno, il Data Catalog attiva la compattazione.

Per i tipi di dati, i formati di compressione e le limitazioni supportati, consulta. Formati e limitazioni supportati per la compattazione gestita dei dati