Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Sie können die AWS Glue Konsole oder die AWS API verwenden AWS CLI, um die Snapshot-Aufbewahrungsoptimierung für Ihre Apache Iceberg-Tabellen im Datenkatalog zu aktivieren. Für neue Tabellen können Sie Apache Iceberg als Tabellenformat wählen und den Snapshot Retention Optimizer aktivieren, wenn Sie die Tabelle erstellen. Die Aufbewahrung von Snapshots ist für neue Tabellen standardmäßig deaktiviert.
Um den Snapshot Retention Optimizer zu aktivieren
-
Öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/
und melden Sie sich als Data Lake-Administrator, als Tabellenersteller oder als Benutzer an, dem die lakeformation:GetDataAccess
Berechtigungenglue:UpdateTable
und für die Tabelle erteilt wurden. -
Wählen Sie im Navigationsbereich unter Datenkatalog die Option Tabellen aus.
Wählen Sie auf der Seite Tabellen eine Iceberg-Tabelle aus, für die Sie den Snapshot Retention Optimizer aktivieren möchten, und wählen Sie dann im Menü Aktionen unter Optimierung die Option Aktivieren aus.
Sie können die Optimierung auch aktivieren, indem Sie die Tabelle auswählen und die Seite mit den Tabellendetails öffnen. Wählen Sie im unteren Bereich der Seite die Registerkarte Tabellenoptimierung und wählen Sie Snapshot-Aufbewahrung aktivieren aus.
-
Auf der Seite Optimierung aktivieren haben Sie unter Optimierungskonfiguration zwei Optionen: Standardeinstellung verwenden oder Einstellungen anpassen. Wenn Sie sich dafür entscheiden, die Standardeinstellungen zu verwenden, AWS Glue verwendet die in der Iceberg-Tabellenkonfiguration definierten Eigenschaften, um den Aufbewahrungszeitraum für Snapshots und die Anzahl der beizubehaltenden Snapshots zu bestimmen. Wenn diese Konfiguration nicht vorhanden ist, wird ein Snapshot fünf Tage lang AWS Glue aufbewahrt und die mit den abgelaufenen Snapshots verknüpften Dateien gelöscht.
-
Wählen Sie als Nächstes eine IAM-Rolle aus, die in Ihrem Namen die Ausführung des Optimierers übernehmen AWS Glue kann. Einzelheiten zu den für die IAM-Rolle erforderlichen Berechtigungen finden Sie im Abschnitt. Voraussetzungen für die Tabellenoptimierung
Gehen Sie wie folgt vor, um eine vorhandene IAM-Rolle zu aktualisieren:
-
Um die Berechtigungsrichtlinie für die IAM-Rolle zu aktualisieren, wechseln Sie in der IAM-Konsole zu der IAM-Rolle, die zum Ausführen der Verdichtung verwendet wird.
-
Wählen Sie im Abschnitt Berechtigungen hinzufügen die Option Richtlinie erstellen aus. Erstellen Sie im neu geöffneten Browserfenster eine neue Richtlinie, die Sie mit Ihrer Rolle verwenden möchten.
Wählen Sie auf der Seite Richtlinie erstellen die Registerkarte JSON aus. Kopieren Sie den in den Voraussetzungen angezeigten JSON-Code in das Feld Richtlinien-Editor.
-
-
Wenn Sie die Werte für die Snapshot-Aufbewahrungskonfiguration lieber manuell festlegen möchten, wählen Sie Einstellungen anpassen.
-
Wählen Sie das Kästchen Ausgewählte IAM-Rolle auf die ausgewählten Optimierer anwenden, um eine einzige IAM-Rolle für alle zu verwenden und alle Optimierer zu aktivieren.
-
Wenn Sie Sicherheitsrichtlinien-Konfigurationen haben, bei denen der Iceberg-Tabellenoptimierer von einer bestimmten Virtual Private Cloud (VPC) aus auf Amazon S3 S3-Buckets zugreifen muss, stellen Sie eine AWS Glue Netzwerkverbindung her oder verwenden Sie eine bestehende.
Wenn Sie noch keine AWS Glue VPC-Verbindung eingerichtet haben, erstellen Sie eine neue, indem Sie die Schritte im Abschnitt Verbindungen für Konnektoren erstellen mithilfe der AWS Glue Konsole oder des AWS CLI/SDKs ausführen.
Wählen Sie als Nächstes unter Snapshot-Aufbewahrungskonfiguration entweder die in der Iceberg-Tabellenkonfiguration
angegebenen Werte aus, oder geben Sie benutzerdefinierte Werte für die Aufbewahrungsdauer von Snapshots an (history.expire). max-snapshot-age-ms) und die Mindestanzahl von Snapshots (history.expire. min-snapshots-to-keep) beizubehalten. -
Wählen Sie „Zugeordnete Dateien löschen“, um die zugrunde liegenden Dateien zu löschen, wenn der Tabellenoptimierer alte Schnappschüsse aus den Tabellenmetadaten löscht.
Wenn Sie diese Option nicht wählen und ältere Snapshots aus den Tabellenmetadaten entfernt werden, verbleiben die zugehörigen Dateien als verwaiste Dateien im Speicher.
-
Lesen Sie als Nächstes den Warnhinweis und wählen Sie Ich bestätige, um fortzufahren.
Anmerkung
Im Datenkatalog berücksichtigt der Snapshot Retention Optimizer den Lebenszyklus, der durch Aufbewahrungsrichtlinien auf Branchen- und Tag-Ebene gesteuert wird. Weitere Informationen finden Sie im Abschnitt Branching and Tagging
in der Iceberg-Dokumentation. -
Überprüfen Sie die Konfiguration und wählen Sie Optimierung aktivieren.
Warten Sie einige Minuten, bis der Retention Optimizer ausgeführt wird und alte Snapshots, die auf der Konfiguration basieren, ablaufen lassen.
Nachdem Sie die Verdichtung aktiviert haben, werden auf der Registerkarte Tabellenoptimierung die folgenden Verdichtungsdetails angezeigt (nach etwa 15 bis 20 Minuten):
- Startzeit
-
Der Zeitpunkt, zu dem der Snapshot Retention Optimizer gestartet wurde. Der Wert ist ein Zeitstempel in UTC-Zeit.
- Run time (Laufzeit)
-
Die Zeit gibt an, wie lange der Optimierer benötigt, um die Aufgabe abzuschließen. Der Wert ist ein Zeitstempel in UTC-Zeit.
- Status
-
Der Status der Ausführung des Optimierers. Die Werte sind „Erfolgreich“ oder „Fehlgeschlagen“.
- Datendateien wurden gelöscht
Gesamtzahl der gelöschten Dateien.
- Manifestdateien wurden gelöscht
-
Gesamtzahl der gelöschten Manifestdateien.
- Manifestlisten wurden gelöscht
-
Gesamtzahl der gelöschten Manifestlisten.