Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Considerazioni e limitazioni per i processi di manutenzione
Amazon S3 consente di usufruire di operazioni di manutenzione per migliorare le prestazioni delle tabelle o dei bucket delle tabelle S3. Tali opzioni comprendono la compattazione dei file, la gestione degli snapshot e la rimozione dei file senza riferimenti. Di seguito sono riportate le limitazioni e le considerazioni relative a queste opzioni di gestione.
Argomenti
Considerazioni sulla compattazione
Alla compattazione si applicano le seguenti considerazioni. Per ulteriori informazioni sulla compattazione, consulta Manutenzione per tavoli.
-
La compattazione è supportata su Apache ParquetAvro, e tipi di ORC file.
-
Per impostazione predefinita, la compattazione scrive nuovi file in Apache Parquet formato. Per compattare invece i file in Avro o ORC formati, impostate la proprietà
write.format.default
table suavro
oorc
. -
La compattazione non supporta il tipo di dati:
Fixed
. -
La compattazione non supporta i tipi di compressione:
brotli
elz4
. La compattazione avviene in base a una pianificazione automatizzata. Se si desidera evitare i costi associati alla compattazione, è possibile disabilitarla manualmente per una tabella utilizzando l'operazione PutTableMaintenanceConfigurationAPI.
Nota
Apache Icebergutilizza un modello di concorrenza ottimistico insieme al rilevamento dei conflitti per arbitrare le transazioni di scrittura. Con una concorrenza ottimistica, le transazioni tra utente e compattazione possono entrare in conflitto, causando il fallimento delle transazioni. Se si verificano conflitti, i processi di compattazione riproveranno in caso di errore. È consigliabile che le pipeline utilizzino anche la logica di ripetizione per superare le transazioni che falliscono a causa di operazioni in conflitto.
Considerazioni sulla gestione degli snapshot
Alla gestione degli snapshot si applicano le seguenti considerazioni. Per ulteriori informazioni sulla gestione degli snapshot, consulta Manutenzione per tavoli.
-
Gli snapshot verranno conservati solo quando entrambi i criteri saranno soddisfatti: il numero minimo di snapshot da conservare e il periodo di conservazione specificato.
-
La gestione degli snapshot elimina i metadati degli snapshot scaduti da Apache Iceberg, evitando le query temporali per gli snapshot scaduti e, facoltativamente, eliminando i file di dati associati.
-
La gestione degli snapshot non supporta i valori di conservazione configurati come proprietà della tabella Iceberg nel file
metadata.json
o tramite un comando SQLALTER TABLE SET TBLPROPERTIES
, inclusa la conservazione basata su ramo o tag. La gestione degli snapshot viene disattivata quando si configura una policy di conservazione basata su ramo o tag oppure quando si configura una policy di conservazione sul filemetadata.json
più lunga dei valori configurati tramite l'APIPutTableMaintenanceConfiguration
. In questi casi S3 non scadrà né rimuoverà gli snapshot e sarà necessario eliminare manualmente gli snapshot o rimuovere le proprietà dalla tabella Iceberg per evitare costi di archiviazione.
Considerazioni sulla rimozione di file senza riferimenti
Alla rimozione dei file senza riferimenti si applicano le seguenti considerazioni. Per ulteriori informazioni sulla rimozione di file senza riferimenti, consulta Manutenzione per secchi da tavola.
-
La rimozione di file senza riferimenti elimina i file di dati e metadati a cui non fanno più riferimento i metadati Iceberg se la data di creazione è precedente al periodo di conservazione.
tabelle e tabelle S3 (bucket), operazioni di manutenzione, limiti e relative. APIs
Operazione di manutenzione | Proprietà | Configurabile a livello di bucket di tabelle? | Configurabile a livello di tabella? | Valore predefinito | Valore minimo | Routine di manutenzione correlata Iceberg | Controllo dell'API S3 Tables |
---|---|---|---|---|---|---|---|
Compattazione | targetFileSizeMB |
No | Sì | 512 MB | 64 MB |
|
PutTableMaintenanceConfiguration |
Gestione degli snapshot | minimumSnapshots |
No | Sì | 1 | 1 | ExpireSnapshots retainLast |
PutTableMaintenanceConfiguration |
Gestione degli snapshot | maximumSnapshotAge |
No | Sì | 120 ore | 1 ora | ExpireSnapshots expireOlderThan |
PutTableMaintenanceConfiguration |
Rimozione di file senza riferimenti | unreferencedDays |
Sì | No | 3 giorni | 1 giorno | deleteOrphanFiles |
PutTableBucketMaintenanceConfiguration |
Rimozione di file senza riferimenti | nonCurrentDays |
Sì | No | 10 giorni | 1 giorno | N/D | PutTableBucketMaintenanceConfiguration |
Nota
S3 Tables applica la row-group-default dimensione del parquet di 128 MB.