Löschen verwaister Dateien - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Löschen verwaister Dateien

AWS Glue Data Catalog ermöglicht es Ihnen, verwaiste Dateien aus Ihren Iceberg-Tabellen zu entfernen. Verwaiste Dateien sind nicht referenzierte Dateien, die in Ihrer Amazon S3 S3-Datenquelle unter dem angegebenen Tabellenspeicherort vorhanden sind, nicht von den Iceberg-Tabellenmetadaten verfolgt werden und älter sind als Ihre konfigurierte Altersbeschränkung. Diese verwaisten Dateien können sich im Laufe der Zeit aufgrund von Fehlern bei Vorgängen wie Komprimierung, Löschen von Partitionen oder Neuschreiben von Tabellen ansammeln und unnötigen Speicherplatz beanspruchen.

Der Optimierer für das Löschen verwaister Dateien AWS Glue scannt die Tabellenmetadaten und die eigentlichen Datendateien, identifiziert die verwaisten Dateien und löscht sie, um Speicherplatz zurückzugewinnen. Der Optimizer entfernt nur Dateien, die nach dem Erstellungsdatum des Optimierers erstellt wurden und auch die konfigurierten Löschkriterien erfüllen. Dateien, die vor oder am Erstellungsdatum des Optimizers erstellt wurden, werden niemals gelöscht.

Logik zum Löschen verwaister Dateien

  1. Datumsprüfung — Vergleicht das Erstellungsdatum der Datei mit dem Erstellungsdatum des Optimizers. Wenn die Datei älter als oder gleich dem Erstellungsdatum des Optimizers ist, wird die Datei übersprungen.

  2. Konfigurationsprüfung des Optimizers — Wenn die Datei neuer als das Erstellungsdatum des Optimizers ist, wird die Datei anhand der konfigurierten Altersbeschränkung bewertet. Der Optimierer löscht die Datei, wenn sie den Löschkriterien entspricht. Überspringt die Datei, wenn sie den Kriterien nicht entspricht.

Sie können das Löschen verwaister Dateien initiieren, indem Sie im Datenkatalog einen Tabellenoptimierer für das Löschen verwaister Dateien erstellen.

Wichtig

Standardmäßig werden beim Löschen verwaister Dateien Dateien an Ihrem gesamten Tabellenspeicherort ausgewertet. AWS Glue Sie können zwar mithilfe eines API-Parameters ein Unterpräfix konfigurieren, um den Umfang der Auswertung einzuschränken, müssen jedoch sicherstellen, dass Ihr Tabellenspeicherort keine Dateien aus anderen Datenquellen oder Tabellen enthält. Wenn sich Ihr Tabellenspeicherort mit anderen Datenquellen überschneidet, identifiziert und löscht der Dienst möglicherweise Dateien, die nichts miteinander zu tun haben, als verwaiste Dateien.