Regierte Tabellen in Lake Formation - AWS Lake Formation

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Regierte Tabellen in Lake Formation

Die Metadatentabellen in derAWS Glue Data CatalogSpeichern Sie Informationen über Datenquellen und Ziele, einschließlich Schemainformationen, Partitionsinformationen, Datenspeicherort und mehr.

Der Datenkatalog unterstützt zwei Arten von Metadatentabellen: kontrollierte Tabellen und nicht gesteuerte Tabellen. Reglementierte Tabellen sind einzigartig fürAWS Lake Formation. Wenn Sie eine Tabelle erstellen, können Sie angeben, dass die Tabelle geregelt sein soll.

Reglementierte Tabellen bieten die folgenden erweiterten Funktionen:

ACID-Transaktionen

ACIDabeabfragen (atomare, konsistente, isolierte und dauerhafte) schützen die Integrität von Data-Catalog-Vorgängen (atomare, konsistente Sie ermöglichen auch mehreren Benutzern das gleichzeitige und zuverlässige Hinzufügen und Löschen von Objekten im Amazon S3 S3-Data Lake, während andere Benutzer gleichzeitig analytische Abfragen und ML-Modelle (Machine Learning) für dieselben Datensätze ausführen können, die konsistente und up-to-date ergebnisse. Wenn geregelte Tabellen an Lese- oder Schreibvorgängen in den Data Lake auf Amazon S3 beteiligt sind, finden diese Vorgänge innerhalb einer Transaktion statt.

Transaktionen schützen die Integrität der Metadaten verwalteter Tabellen, einschließlich derManifest— die Metadaten, die die Amazon S3 S3-Objekte in den zugrunde liegenden Daten der Tabelle definieren. IntegriertAWSDienste wieAmazon Athenaunterstützt kontrollierte Tabellen, um konsistente Lesevorgänge in Abfragen zu So verwenden Sie Transaktionen in IhremAWS GlueBei ETL-Aufträgen beginnen Sie eine Transaktion, bevor Sie Lese- oder Schreibvorgänge aus dem Data Lake durchführen, und Sie übernehmen die Transaktion nach Abschluss.

Weitere Informationen zu Transaktionen finden Sie unter Lesen aus dem Data Lake und Schreiben in den Data Lake innerhalb von Transaktionen.

Automatische Datenverdichtung

Für eine verbesserte Leistung von ETL-Jobs und Analyseservices wie Athena komprimiert Lake Formation kleine Amazon-S3-Objekte automatisch von geregelten Tabellen in größere Objekte.

Die Komprimierung ist standardmäßig für kontrollierte Tabellen aktiviert. Sie können die Komprimierung für einzelne kontrollierte Tabellen deaktivieren. Weitere Informationen finden Sie unter Speicheroptimierungen für kontrollierte Tabellen.

Zeitreiseabfragen

Wie bereits erwähnt behält jede kontrollierte Tabelle ein versioniertes Manifest der Amazon-S3-Objekte bei, aus denen sie besteht. Frühere Versionen des Manifests können für Zeitreiseabfragen verwendet werden. Ihre Fragen gegen kontrollierte Tabellen in Athena und inAWS GlueETL-Jobs können einen Zeitstempel enthalten, um anzugeben, dass Sie den Status der Daten zu einem bestimmten Datum und einer bestimmten Uhrzeit ermitteln möchten.

Um eine Zeitreise-Abfrage in Athena zu senden, verwenden Sie die SyntaxFOR SYSTEM_TIME AS OF timestampoderFOR SYSTEM_VERSION AS OF version.

SELECT * FROM cloudtraildb.cloudtraildata FOR SYSTEM_TIME AS OF TIMESTAMP '2021-09-30 10:00:00'

Weitere Beispiele für Athena-Zeitreise-Abfragen von regulierten Tabellen finden Sie unterAbfragen von geregelten TabellenimAmazon-Athena-Benutzerhandbuch.

Fügen Sie in Ihrem ETL-Jobskript Code ähnlich dem folgenden ein, um Daten mithilfe von Zeitreisen in einen dynamischen Rahmen zu lesen.

Python
dynamic_frame = glueContext.create_dynamic_frame_from_catalog(database = 'cloudtraildb, table_name = 'cloudtraildata', additional_options = {"asOfTime": "2021-09-30 10:00:00"})
Scala
val persons: DynamicFrame = glueContext.getCatalogSource(database = "cloudtraildb", tableName = "cloudtraildata", additional_options = JsonOptions("""{"asOfTime": "2021-09-30 10:00:00"}""") ).getDynamicFrame()
Anmerkung

Lake Formation Formation-Berechtigungen sind nicht versioniert. Zeitreise-Anfragen berücksichtigen immer die aktuellen Berechtigungen. Wenn beispielsweise Berechtigungen zum Zeitpunkt T1 den Zugriff auf Tabellenspalten beschränkten und die aktuellen Berechtigungen (zum Zeitpunkt T2) Zugriff auf alle Spalten gewähren, gibt eine Zeitreiseabfrage für die Daten zum Zeitpunkt T1 alle Spalten zurück.