Entdecken Sie Ihre Daten mit S3-Metadata-Tabellen
Amazon S3 Metadata beschleunigt die Datenerkennung, indem Metadaten für Objekte in Ihren Allzweck-Buckets automatisch erfasst und in schreibgeschützten, vollständig verwalteten Apache Iceberg-Tabellen gespeichert werden, die Sie abfragen können. Diese schreibgeschützten Tabellen werden als Metadatentabellen bezeichnet. Wenn Objekte zu Ihren Allzweck-Buckets hinzugefügt, aktualisiert oder aus ihnen entfernt werden, aktualisiert S3 Metadata automatisch die entsprechenden Metadatentabellen, um die neuesten Änderungen zu berücksichtigen.
Standardmäßig bietet S3 Metadata drei Arten von Metadaten:
-
Systemdefinierte Metadaten, wie z. B. die Erstellungszeit und die Speicherklasse eines Objekts
-
Benutzerdefinierte Metadaten wie Tags und benutzerdefinierte Metadaten, die beim Hochladen von Objekten aufgenommen wurden
-
Ereignismetadaten, z. B. wann ein Objekt aktualisiert oder gelöscht wurde und von welchem AWS-Konto die Anfrage gestellt wurde
Mit S3 Metadata können Sie auf einfache Weise Metadaten für Ihre S3-Objekte finden, speichern und abfragen, sodass Sie Daten schnell für die Verwendung in Geschäftsanalysen, Inhaltsabruf, Modelltraining mit künstlicher Intelligenz und Machine Learning (KI/ML) und mehr vorbereiten können.
Für jeden Allzweck-Bucket können Sie eine Metadatentabellenkonfiguration erstellen, die zwei sich ergänzende Metadatentabellen enthält:
-
Journaltabelle – Standardmäßig enthält Ihre Metadatentabellenkonfiguration eine Journaltabelle, die Ereignisse erfasst, die für die Objekte in Ihrem Bucket auftreten. Eine Journaltabelle zeichnet Änderungen an Ihren Daten nahezu in Echtzeit auf und hilft Ihnen dabei, neue Daten zu identifizieren, die in Ihren Bucket hochgeladen wurden, kürzlich gelöschte Objekte zu verfolgen, Lebenszyklusübergänge zu überwachen und vieles mehr. Die Journaltabelle zeichnet neue Objekte und Aktualisierungen Ihrer Objekte und ihrer Metadaten auf (die Aktualisierungen, für die entweder eine
PUT- oder eineDELETE-Operation erforderlich ist).Der Journal-Tabelle werden nur Metadaten für Änderungsereignisse (wie Uploads, Aktualisierungen und Löschungen) hinzugefügt, die nach dem Erstellen Ihrer Metadatentabellenkonfiguration passieren. Da diese Tabelle abfragbar ist, können Sie die Änderungen an Ihrem Bucket durch einfache SQL-Abfragen überprüfen.
Die Journaltabelle ist für jede Metadatentabellenkonfiguration erforderlich. (In der ersten Version von S3 Metadata wurde die Journaltabelle als „Metadatentabelle“ bezeichnet.)
Weitere Informationen zu den in Journaltabellen gespeicherten Daten finden Sie unter Schema der S3-Metadaten-Journal-Tabellen.
Um die Speicherkosten für Ihre Journaltabelle zu minimieren, können Sie das Ablaufen von Datensätzen in der Journaltabelle aktivieren. Weitere Informationen finden Sie unter Ablauf von Journaltabellen-Datensätzen.
-
Live-Inventartabelle – Optional können Sie Ihrer Metadatentabellenkonfiguration eine Live-Inventartabelle hinzufügen. Die Live-Inventartabelle bietet eine einfache, abfragbare Bestandsaufnahme aller Objekte und ihrer Versionen in Ihrem Bucket, so dass Sie den aktuellen Status Ihrer Daten ermitteln können.
Sie können die Live-Inventartabelle verwenden, um Geschäftsabläufe und Big-Data-Jobs zu vereinfachen und zu beschleunigen, indem Sie Objekte identifizieren, die Sie für verschiedene Workloads verarbeiten möchten. Sie können beispielsweise die Live-Inventartabelle abfragen, um alle Objekte zu finden, die in einer bestimmten Speicherklasse gespeichert sind, alle Objekte mit bestimmten Tags, alle Objekte, die nicht mit serverseitiger Verschlüsselung mit AWS Key Management Service (AWS KMS)-Schlüsseln (SSE-KMS) verschlüsselt sind, und mehr.
Wenn Sie die Live-Inventartabelle für Ihre Metadatentabellenkonfiguration aktivieren, durchläuft die Tabelle einen Prozess, der als Backfilling bezeichnet wird. Dabei scannt Amazon S3 Ihren Allzweck-Bucket, um die ursprünglichen Metadaten für alle Objekte abzurufen, die in dem Bucket vorhanden sind. Je nach Anzahl der Objekte in Ihrem Bucket kann dieser Vorgang einige (mindestens 15) Minuten bis einige Stunden dauern. Wenn der Backfilling-Vorgang abgeschlossen ist, ändert sich der Status Ihrer Live-Inventartabelle von Backfilling zu Aktiv. Nachdem das Backfilling abgeschlossen ist, werden Aktualisierungen Ihrer Objekte in der Regel innerhalb einer Stunde in der Live-Inventartabelle wiedergegeben.
Hinweis: Das Backfilling Ihrer Live-Inventartabelle wird Ihnen in Rechnung gestellt. Wenn Ihr Allzweck-Bucket mehr als eine Milliarde Objekte enthält, wird Ihnen auch eine monatliche Gebühr für Ihre Live-Inventartabelle berechnet. Weitere Informationen finden Sie unter Amazon S3 – Preise
. Weitere Informationen dazu, welche Daten in Live-Bestandstabellen gespeichert werden, finden Sie unter Schema der S3-Metadaten-Live-Inventartabellen.
Ihre Metadaten-Tabellen werden in einem AWS verwalteten S3 Tabellen-Bucket gespeichert, das einen für Tabellendaten optimierten Speicherplatz bietet. Um Ihre Metadaten abzufragen, können Sie Ihren Tabellen-Bucket in Amazon SageMaker Lakehouse integrieren. Diese Integration, die AWS Glue Data Catalog und AWS Lake Formation verwendet, ermöglicht AWS-Analytikservices, Ihre Tabellendaten automatisch zu erkennen und darauf zuzugreifen.
Nachdem Ihr Tabellen-Bucket in AWS Glue Data Catalog integriert wurde, können Sie Ihre Metadatentabellen direkt mit AWS-Analytikservices wie Amazon Athena, Amazon EMR und Amazon Redshift abfragen. Von dort aus können Sie mithilfe von Amazon Quick Suite interaktive Dashboards mit Ihren Abfragedaten erstellen. Weitere Informationen zur Integration Ihres AWS-verwalteten S3-Tabellen-Buckets mit Amazon SageMaker Lakehouse finden Sie unter Integrieren von Amazon S3 Tables mit AWS-Analytikservices.
Sie können Ihre Metadatentabellen auch mit Apache Spark, Apache Trino und jeder anderen Anwendung, die das Apache Iceberg-Format unterstützt, abfragen, indem Sie den AWS Glue Iceberg REST-Endpunkt, den Amazon S3 Tables Iceberg-REST-Endpunkt oder den Amazon S3 Tables Catalog für den Apache Iceberg-Kundenkatalog verwenden. Weitere Informationen zum Zugriff auf Ihre Metadatentabellen finden Sie unter Zugreifen auf Tabellendaten.
Die Preise für S3 Metadata finden Sie unter Amazon S3 – Preise
Funktionsweise von Metadatentabellen
Metadatentabellen werden von Amazon S3 verwaltet und können von keinem IAM-Prinzipal außerhalb von Amazon S3 geändert werden. Sie können Ihre Metadatentabellen jedoch löschen. Daher sind die Metadaten-Tabellen schreibgeschützt, was dazu beiträgt, dass sie den Inhalt Ihres Allzweck-Buckets korrekt wiedergeben.
Um Objektmetadaten in einer Tabelle mit von AWS verwalteten Metadatentabellen zu generieren und zu speichern, erstellen Sie eine Metadatentabellenkonfiguration für Ihren Allzweck-Bucket. Amazon S3 ist so konzipiert, dass die Metadatentabellen kontinuierlich aktualisiert werden, um die neuesten Änderungen an Ihren Daten widerzuspiegeln, solange die Konfiguration für den Allzweck-Bucket aktiv ist.
Bevor Sie eine Metadatentabellenkonfiguration erstellen, stellen Sie sicher, dass Sie über die erforderlichen AWS Identity and Access Management (IAM)-Berechtigungen zum Erstellen und Verwalten von Metadatentabellen verfügen. Weitere Informationen finden Sie unter Einrichten von Berechtigungen für die Konfiguration von Metadatentabellen.
Speicherung, Organisation und Verschlüsselung von Metadatentabellen
Wenn Sie Ihre Metadatentabellenkonfiguration erstellen, werden Ihre Metadatentabellen in einem AWS-verwalteten Tabellen-Bucket gespeichert. Alle Metadatentabellenkonfigurationen in Ihrem Konto und in derselben Region werden in einem einzigen AWS-verwalteten Tabellen-Bucket gespeichert. Diese von AWS verwalteten Tabellen-Buckets werden als „aws-s3“ bezeichnet und haben das folgende Amazon-Ressourcenname (ARN)-Format:
arn:aws:s3tables:region:account_id:bucket/aws-s3
Wenn Ihre Konto-ID beispielsweise 123456789012 lautet und sich Ihr Allzweck-Bucket in USA Ost (Nord-Virginia) (us-east-1) befindet, wird Ihr AWS-verwalteter Tabellen-Bucket auch in USA Ost (Nord-Virginia) (us-east-1) erstellt und hat den folgenden ARN:
arn:aws:s3tables:us-east-1:123456789012:bucket/aws-s3
Standardmäßig werden AWS-verwaltete Tabellen-Buckets mit serverseitiger Verschlüsselung mithilfe von Amazon S3 verwalteten Schlüsseln (SSE-S3) verschlüsselt. Nachdem Sie Ihre erste Metadatenkonfiguration erstellt haben, können Sie die Standardverschlüsselungseinstellung für den AWS-verwalteten Tabellen-Bucket so anpassen, dass die serverseitige Verschlüsselung mit AWS Key Management Service (AWS KMS)-Schlüsseln (SSE-KMS) verwendet wird. Weitere Informationen finden Sie unter Verschlüsselung für AWS-verwaltete Tabellen-Buckets und Festlegen der serverseitigen Verschlüsselung mit AWS KMS-Schlüsseln (SSE-KMS) in Tabellen-Buckets.
In Ihrem AWS-verwalteten Tabellen-Bucket werden die Metadatentabellen für Ihre Konfiguration normalerweise in einem Namespace mit dem folgenden Benennungsformat gespeichert:
b_general-purpose-bucket-name
Anmerkung
-
Wenn der Name Ihres Allzweck-Buckets Punkte enthält, werden die Punkte im Namespace-Namen in Unterstriche (
_) umgewandelt. -
Wenn Ihr Allzweck-Bucket vor dem 1. März 2018 erstellt wurde, kann sein Name Großbuchstaben und Unterstriche enthalten und er kann bis zu 255 Zeichen lang sein. Wenn der Name Ihres Buckets diese Merkmale aufweist, hat der Namespace Ihrer Metadatentabelle ein anderes Format. Dem Bucketnamen für allgemeine Zwecke wird ein
b_-Präfix vorangestellt, auf 63 Zeichen gekürzt, in Kleinbuchstaben umgewandelt und mit einem Hash als Suffix versehen.
Metadatentabellen haben das folgende Format für Amazon-Ressourcennamen (ARN), das die Tabellen-ID der Metadatentabelle enthält:
arn:aws:s3tables:region-code:account-id:bucket/aws-s3/table/table-id
Eine Metadatentabelle in der Region USA Ost (Nord-Virginia) hätte zum Beispiel einen ARN wie den folgenden:
arn:aws:s3tables:us-east-1:111122223333:bucket/aws-s3/table/a12bc345-67d8-912e-3456-7f89123g4h56
Journaltabellen haben den Namen journal und Live-Inventartabellen haben den Namen inventory.
Bei der Erstellung Ihrer Metadatentabellenkonfiguration haben Sie die Möglichkeit, Ihre AWS-verwalteten Metadatentabellen mit serverseitiger Verschlüsselung unter Verwendung von AWS Key Management Service (AWS KMS)-Schlüsseln (SSE-KMS) zu verschlüsseln. Wenn Sie SSE-KMS verwenden möchten, müssen Sie einen vom Kunden verwalteten KMS-Schlüssel in derselben Region wie Ihr Allzweck-Bucket angeben. Sie können die Verschlüsselungsart für Ihre Metadatentabellen nur bei der Tabellenerstellung festlegen. Nachdem eine AWS-verwaltete Tabelle erstellt wurde, können Sie ihre Verschlüsselungseinstellung nicht mehr ändern. Um SSE-KMS für Ihre Metadatentabellen anzugeben, benötigen Sie bestimmte Berechtigungen. Weitere Informationen finden Sie unter Berechtigungen für SSE-KMS.
Die Verschlüsselungseinstellung für eine Metadatentabelle hat Vorrang vor der standardmäßigen Verschlüsselungseinstellung auf Bucket-Ebene. Wenn Sie keine Verschlüsselung für eine Metadatentabelle angeben, übernimmt sie die Standardverschlüsselungseinstellung von dem Bucket.
AWS verwaltete Tabellen-Buckets werden nicht auf Ihre S3-Tabellen-Kontingente angerechnet. Weitere Informationen zum Arbeiten mit AWS-verwalteten Tabellen-Buckets und AWS-verwalteten Tabellen finden Sie unter Arbeiten mit AWS-verwalteten Tabellen-Buckets.
Um Aktualisierungen Ihrer Metadatentabellenkonfiguration zu überwachen, können Sie AWS CloudTrail verwenden. Weitere Informationen finden Sie unter Amazon-S3-Aktionen auf Bucket-Ebene, die durch die CloudTrail-Protokollierung verfolgt werden.
Pflege von Metadatentabellen und Ablauf von Datensätzen
Damit Ihre -Metadatentabellen stets optimal funktionieren, führt Amazon S3 regelmäßige Wartungsaktivitäten an Ihren Tabellen durch, z. B. Komprimierung und Entfernung nicht referenzierter Dateien. Diese Wartungsaktivitäten tragen dazu bei, sowohl die Kosten für das Speichern Ihrer Metadatentabellen zu minimieren als auch die Abfrageleistung zu optimieren. Diese Tabellenverwaltung erfolgt automatisch und erfordert weder Ihre Zustimmung noch eine laufende Verwaltung durch Sie.
Anmerkung
-
Sie können den Ablauf von Snapshots von Journaltabellen oder Inventartabellen nicht kontrollieren. Für jede Tabelle speichert Amazon S3 mindestens einen Snapshot für maximal 24 Stunden.
-
Um Ihre Kosten zu minimieren, können Sie den Ablauf von Journaltabellendatensätzen konfigurieren. Standardmäßig laufen Journaltabelleneinträge nicht ab, und Journaltabelleneinträge müssen mindestens 7 Tage aufbewahrt werden. Weitere Informationen finden Sie unter Ablauf von Journaltabellen-Datensätzen.