Was ist AWS Lake Formation? - AWS Lake Formation

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Was ist AWS Lake Formation?

Willkommen bei derAWS Lake FormationEntwicklerhandbuch.

AWS Lake Formationist ein vollständig verwalteter Service, der das Erstellen, Sichern und Verwalten von Data Lakes vereinfacht. Lake Formation vereinfacht und automatisiert viele der komplexen manuellen Schritte, die normalerweise zum Erstellen von Data Lakes erforderlich sind. Zu diesen Schritten gehören das Sammeln, Bereinigen, Verschieben und Katalogisieren von Daten sowie die sichere Bereitstellung dieser Daten für Analytik und maschinelles Lernen.

Lake Formation bietet ein eigenes Berechtigungsmodell, das das IAM-Berechtigungsmodell erweitert. Dieses zentral definierte Berechtigungsmodell ermöglicht einen feinabgestimmten Zugriff auf Daten, die in Data Lakes gespeichert sind, über einen einfachen Erteilungs- oder Widerrufsmechanismus, ähnlich wie bei einem relationalen Datenbankmanagementsystem (RDMS). See-Formation-Berechtigungen werden durch granulare Steuerelemente auf Spalten-, Zeilen- und Zellebene erzwungenAWSAnalyse- und Machine-Learning-Services, einschließlich Amazon Athena, Amazon QuickSight und Amazon Redshift.

Funktionen der Lake Formation

Mit Lake Formation können Sie Datensilos aufschlüsseln und verschiedene Arten von strukturierten und unstrukturierten Daten zu einem zentralen Repository kombinieren. Identifizieren Sie zunächst vorhandene Datenspeicher in Amazon S3 oder relationalen und NoSQL-Datenbanken und verschieben Sie die Daten in Ihren Data Lake. Dann crawlen, katalogisieren und bereiten Sie die Daten für Analysen vor. Bieten Sie Ihren Benutzern als Nächstes einen sicheren Self-Service-Zugriff auf die Daten durch die Auswahl an Analysediensten.

Einrichtung und Datenverwaltung

Importieren Sie Daten aus bereits inAWS

Sobald Sie angegeben haben, wo sich Ihre vorhandenen Datenbanken befinden und Ihre Zugangsdaten angegeben haben, liest Lake Formation die Daten und ihre Metadaten (Schema), um den Inhalt der Datenquelle zu verstehen. Anschließend importiert es die Daten in Ihren neuen Data Lake und zeichnet die Metadaten in einem zentralen Katalog auf. Mit Lake Formation können Sie Daten aus MySQL-, PostgreSQL-, SQL Server-, MariaDB- und Oracle-Datenbanken importieren, die in Amazon RDS ausgeführt oder in Amazon EC2 gehostet werden. Sowohl das Massenladen als auch das inkrementelle Laden von Daten werden unterstützt.

Daten aus anderen externen Quellen importieren

Sie können Lake Formation verwenden, um Daten aus lokalen Datenbanken zu verschieben, indem Sie eine Verbindung mit Java Database Connectivity (JDBC) herstellen. Identifizieren Sie Ihre Zielquellen und geben Sie Zugangsdaten in der Konsole an, und Lake Formation liest und lädt Ihre Daten in den Data Lake. Um Daten aus anderen als den oben aufgeführten Datenbanken zu importieren, können Sie benutzerdefinierte ETL-Jobs mitAWS Glueaus.

Katalogisieren und kennzeichnen Sie Ihre Daten

Lake Formation crawlt und liest Ihre Datenquellen, um technische Metadaten zu extrahieren, und erstellt einen durchsuchbaren Katalog, um diese Informationen für Benutzer zu beschreiben, damit sie verfügbare Datensätze erkennen können. Sie können Ihren Daten auch Ihre eigenen benutzerdefinierten Labels (auf Tabellen- und Spaltenebene) hinzufügen, um Attribute wie „sensible Informationen“ und „europäische Verkaufsdaten“ zu definieren. Lake Formation bietet eine textbasierte Suche nach diesen Metadaten, damit Ihre Benutzer schnell die Daten finden können, die sie analysieren müssen. Weitere Informationen zum Hinzufügen von Tabellen zum Datenkatalog finden Sie unterDatenkatalogtabellen und Datenbanken verwaltenaus.

Transformieren von Daten

Lake Formation kann Transformationen an Ihren Daten durchführen, z. B. das Umschreiben verschiedener Datumsformate zur Konsistenz, um sicherzustellen, dass die Daten analysefreundlich gespeichert werden. Lake Formation erstellt Transformationsvorlagen und plant Jobs, um Ihre Daten für die Analyse vorzubereiten. Ihre Daten werden transformiert mitAWS Glueund in säulenförmigen Formaten wie Parquet und ORC für bessere Leistung geschrieben.

Bereinigen und Deduplizieren von Daten

Lake Formation hilft bei der Reinigung und Vorbereitung Ihrer Daten für die Analyse, indem es eine Transformation für maschinelles Lernen mit dem Namen FindMatches zur Deduplizierung und zum Auffinden übereinstimmender Datensätze. Verwenden Sie z. B. FindMatches um doppelte Datensätze in Ihrer Restaurantdatenbank zu finden, z. B. wenn ein Datensatz „Joe's Pizza“ bei „121 Main St.“ auflistet und eine weitere zeigt „Joseph's Pizzeria“ bei „121 Main“. FindMatches fordert Sie einfach auf, Datensätze entweder als „übereinstimmend“ oder „nicht übereinstimmend“ zu kennzeichnen. Das System lernt dann Ihre Kriterien für das Aufrufen eines Datensatzpaares als Übereinstimmung kennen und erstellt eine Transformation für maschinelles Lernen, mit der Sie doppelte Datensätze in einer Datenbank oder übereinstimmenden Datensätzen in zwei Datenbanken finden können.Weitere Informationen zu FindMatches finden Sie unterAbgleichen von Datensätzen mitAWS Lake FormationFindMatchesimAWS GlueEntwicklerhandbuchaus.

Speicheroptimierungen

Die Analyseleistung kann durch ineffiziente Speicherung vieler kleiner Dateien beeinträchtigt werden, die automatisch erstellt werden, wenn neue Daten in den Data Lake geschrieben werden. Die Verarbeitung dieser vielen kleinen Dateien schafft zusätzlichen Overhead für Analysedienste und führt zu langsameren Abfrageantworten. Lake Formation enthält einen Speicheroptimierer, der kleine Dateien automatisch zu größeren Dateien kombiniert, um Abfragen um das bis zu 7-fache zu beschleunigen. Dieser Prozess, allgemein als Verdichtung bezeichnet, wird im Hintergrund ausgeführt, so dass es keine Auswirkungen auf die Leistung auf Ihre Produktions-Workloads gibt, während dies stattfindet. Weitere Informationen zu den Merkmalen der Speicheroptimierung von Lake Formation finden Sie unterSpeicheroptimierungen für gesteuerte Tabellenaus.

Sicherheit auf Zeilenebene und Zellebene

Lake Formation bietet Datenfilter, mit denen Sie den Zugriff auf eine Kombination von Spalten und Zeilen einschränken können. Verwenden Sie Sicherheit auf Zeilen- und Zellebene, um sensible Daten wie personenbezogene Daten (PII) zu schützen. Weitere Informationen zur Sicherheit auf Zeilenebene finden Sie unterÜbersicht über die Datenfilterungaus.

Sicherheitsmanagement

Definieren und Verwalten von Zugriffskontrollen

Lake Formation bietet einen einzigen Ort, um Zugriffskontrollen für Daten in Ihrem Data Lake zu verwalten. Sie können Sicherheitsrichtlinien definieren, die den Zugriff auf Daten auf Datenbank-, Tabellen-, Spalten-, Zeilen- und Zellenebene einschränken. Diese Richtlinien gelten für IAM-Benutzer und -Rollen sowie für Benutzer und Gruppen, wenn sie über einen externen Identitätsanbieter verbunden werden. Sie können feinkörnige Steuerelemente verwenden, um auf Daten zuzugreifen, die durch Lake Formation innerhalb von Amazon Redshift Spectrum, Athena, gesichert sind,AWS GlueETL und Amazon EMR für Apache Spark.

Implementieren der Überwachungsprotokollierung

Lake Formation bietet umfassende Audit-Protokolle mit CloudTrail um den Zugriff zu überwachen und die Einhaltung zentral definierter Richtlinien zu zeigen. Sie können den Datenzugriffshistorie über Analyse- und Machine Learning-Dienste überprüfen, die die Daten in Ihrem Data Lake über Lake Formation lesen. Auf diese Weise können Sie sehen, welche Benutzer oder Rollen versucht haben, auf welche Daten zuzugreifen, mit welchen Diensten und wann. Sie können auf die gleiche Weise auf Audit-Logs zugreifen, wie Sie auf andere zugreifen CloudTrail protokolliert mit den CloudTrail-APIs und der Konsole. Weitere Informationen zu CloudTrail Logs sieheProtokollierungAWSLake Formation API-Aufrufe mitAWS CloudTrailaus.

Tag-basierte Zugriffskontrolle

Sie können Ihre Daten klassifizieren und den Zugriff auf sensible Informationen beschränken. Sie können den Daten auf Tabellen- und Spaltenebene auch Ihre eigenen benutzerdefinierten Labels (LF-Tags) hinzufügen, um Attribute wie „sensible Informationen“ oder „europäische Verkaufsdaten“ zu definieren. Lake Formation bietet eine textbasierte Suche nach diesen Metadaten, sodass Ihre Benutzer schnell die Daten finden können, die sie analysieren müssen. Sie können basierend auf diesen LF-Tags Zugriff auf die Daten gewähren. Weitere Informationen zur tagbasierten Zugriffssteuerung finden Sie unterLake Formation Tag-basierte Zugriffskontrolleaus.

Kontoübergreifender Zugriff

Funktionen zum Berechtigungsmanagement von Lake Formation vereinfachen die Sicherung und Verwaltung verteilter Data-Lakes über mehrereAWSKonten durch einen zentralisierten Ansatz, der differenzierte Zugriffskontrollen für den -Datenkatalog und Amazon S3Locations ermöglicht.

geregelte Tabellen

Data Lakes müssen den Benutzern jederzeit die korrekte Ansicht der Daten zeigen, auch wenn gleichzeitig Echtzeitaktualisierungen oder häufige Aktualisierungen der Daten erfolgen. Das Laden von Streaming-Daten oder das Einbeziehen von Änderungen aus mehreren Quelldatensystemen erfordert die parallel Verarbeitung von Einfügungen und Löschungen in mehreren Tabellen. Heute schreiben Entwickler benutzerdefinierten Anwendungscode oder verwenden Open-Source-Tools, um diese Updates zu verwalten. Diese Lösungen sind komplex und schwer zu skalieren, da das Schreiben von Anwendungscode, der beim gleichzeitigen Lesen und Schreiben derselben Daten die Konsistenz beibehält, mühsam, spröde und fehleranfällig ist.

Lake Formation führt neue APIs ein, die atomare, konsistente, isolierte und dauerhafte (ACID) Transaktionen mit einem neuen Data Lake-Tabellentyp unterstützen, der alsgeregelte Tabelleaus. Eine gesteuerte Tabelle ermöglicht es mehreren Benutzern, Daten über Tabellen mithilfe von Manifesten gleichzeitig einzufügen und zu löschen, während andere Benutzer gleichzeitig analytische Abfragen und ML-Modelle auf denselben Datensätzen ausführen können, die konsistente und zurückgeben up-to-date Ergebnisse.

Weitere Informationen zur Verwendung von Transaktionen mit Lake Formation finden Sie in den folgenden Themen:

AWS-Service-Integrationen mit Lake Formation

FolgendesAWS-Services integrieren inAWS Lake Formationund ehren Sie die Berechtigungen für Lake Formation

AWS-Service Wie integriert
AWS Glue AWS Glueund Lake Formation teilen denselben Datenkatalog. Für Konsolenoperationen (z. B. das Anzeigen einer Tabellenliste) und für alle API-VorgängeAWS GlueBenutzer können nur auf die Datenbanken und Tabellen zugreifen, für die sie über Lake Formation Formation-Berechtigungen verfügen.
Anmerkung

AWS Glueunterstützt keine Berechtigungen für die Spalte Lake Formation.

Amazon Athena WannAmazon AthenaBenutzer wählenAWS Glue-Katalog im Abfrage-Editor können sie nur die Datenbanken, Tabellen und Spalten abfragen, für die sie über Lake Formation Formation-Berechtigungen verfügen. Abfragen, die Manifeste verwenden, werden nicht unterstützt.

Zusätzlich zu Schulleitern, die sich bei Athena authentifizieren überAWS Identity and Access Management(IAM) unterstützt Lake Formation Athena-Benutzer, die sich über den JDBC- oder ODBC-Treiber verbinden und sich über SAML authentifizieren. Zu den unterstützten SAML-Anbietern gehören Okta und Microsoft Active Directory Federation Service (AD FS). Weitere Informationen finden Sie unterVerwenden von Lake Formation und den Athena-JDBC- und ODBC-Treibern für den Verbundzugriff auf AthenaimBenutzerhandbuch für Amazon Athenaaus.

Anmerkung

Derzeit wird die Autorisierung des Zugriffs auf SAML-Identitäten in Lake Formation in den folgenden Regionen nicht unterstützt:

  • Naher Osten (Bahrain) - me-south-1

  • Asien-Pazifik (Hongkong) - ap-east-1

  • Afrika (Kapstadt) - af-south-1

  • China (Ningxia) - cn-northwest-1

  • Asien-Pazifik (Osaka) - ap-northeast-3

Amazon Redshift Spectrum Wenn Amazon Redshift Redshift-Benutzer ein externes Schema in einer Datenbank imAWS Gluekatalog können sie nur die Tabellen und Spalten in diesem Schema abfragen, für die sie über Lake Formation Formation-Berechtigungen verfügen.

Abfragen, die Manifeste verwenden, werden nicht unterstützt.

Amazon QuickSight Enterprise Edition Wenn ein Amazon QuickSight Enterprise Edition-Benutzer fragt einen Datensatz an einem Amazon S3 S3-Standort ab, der bei Lake Formation registriert ist, der Benutzer muss über die Lake Formation verfügenSELECTBerechtigung für die Daten.
Amazon EMR Lake Formation Formation-Berechtigungen werden erzwungen, wenn Apache Spark-Anwendungen mit Apache Zeppelin oder EMR Notebooks eingereicht werden.

Lake Formation arbeitet auch mitAWS Key Management Service(AWS KMS), um es Ihnen zu ermöglichen, diese integrierten -Services einfacher für die Verschlüsselung und Entschlüsselung von Daten an Amazon Simple Storage Service (Amazon S3) -Standorten zu verschlüsseln und zu entschlüsseln.

Unterstützte Regionen

Für denAWS-Regionenunterstützt vonAWS Lake Formation, finden Sie unterAWS Lake FormationPreisgestaltungaus.

Eine Liste der Endpunkte des Lake Formation -Service-Endpunkte für jede Region und der -Servicekontingente für Lake Formation finden Sie unterAWS Lake Formation-Endpunkte und -Kontingenteaus.

Die verwalteten Tabellen, Transaktionsunterstützung, Sicherheit auf Zellebene und Speicheroptimierungen für Lake Formation sind im Folgenden verfügbarAWS-Regionenaus.

Name der Region Regionsparameter
US East (N. Virginia) us-east-1
USA Ost (Ohio) us-east-2
US West (Oregon) us-west-2
Asia Pacific (Mumbai) ap-south-1
Asia Pacific (Seoul) ap-northeast-2
Asia Pacific (Singapore) ap-southeast-1
Asia Pacific (Sydney) ap-southeast-2
Asia Pacific (Tokyo) ap-northeast-1
Europa (Frankfurt) eu-central-1
Europe (Ireland) eu-west-1
Europe (London) eu-west-2
Europa (Stockholm) eu-north-1
Kanada (Zentral) ca-central-1

Erste Schritte mit Lake Formation

Wir empfehlen, dass Sie mit den folgenden Abschnitten beginnen: