Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Eliminazione di file orfani
AWS Glue Data Catalog consente di rimuovere i file orfani dalle tabelle Iceberg. I file orfani sono file non referenziati che esistono nella tua origine dati Amazon S3 nella posizione della tabella specificata, non sono tracciati dai metadati della tabella Iceberg e sono più vecchi del limite di età configurato. Questi file orfani possono accumularsi nel tempo a causa di errori in operazioni come compattazione, perdita di partizioni o riscritture di tabelle e occupare spazio di archiviazione non necessario.
L'ottimizzatore per l'eliminazione dei file AWS Glue orfani analizza i metadati della tabella e i file di dati effettivi, identifica i file orfani e li elimina per recuperare spazio di archiviazione. L'ottimizzatore rimuove solo i file creati dopo la data di creazione dell'ottimizzatore che soddisfano anche i criteri di eliminazione configurati. I file creati prima o alla data di creazione dell'ottimizzatore non vengono mai eliminati.
Logica di eliminazione dei file orfani
Controllo della data: confronta la data di creazione del file con la data di creazione dell'ottimizzatore. Se il file è precedente o uguale alla data di creazione dell'ottimizzatore, il file viene ignorato.
Controllo della configurazione dell'ottimizzatore: se il file è più recente della data di creazione dell'ottimizzatore, valuta il file rispetto al limite di età configurato. L'ottimizzatore elimina il file se soddisfa i criteri di eliminazione. Ignora il file, se non corrisponde ai criteri.
È possibile avviare l'eliminazione dei file orfani creando un ottimizzatore di tabelle per l'eliminazione dei file orfani nel Data Catalog.
Importante
Per impostazione predefinita, l'eliminazione dei file orfani valuta i file in tutta la posizione della tabella. AWS Glue Sebbene sia possibile configurare un prefisso secondario per limitare l'ambito di valutazione utilizzando il parametro API, è necessario assicurarsi che la posizione della tabella non contenga file provenienti da altre fonti di dati o tabelle. Se la posizione della tabella si sovrappone ad altre fonti di dati, il servizio potrebbe identificare ed eliminare i file non correlati come orfani.