Definition von S3-Bucket- und Pfadnamen für Data Lake-Ebenen in derAWS Cloud

Isabelle Imacseng, Samuel Schmidt und Andrés Cantor, Amazon Web Services (AWS)

November 2021 (Dokumentenhistorie)

Dieses Handbuch enthält Informationen zur Erstellung eines konsistenten Benennungsstandards für Amazon Simple Storage Service (Amazon S3) -Buckets und -Pfade in Data Lakes, die in der Amazon Web Services (AWS) Cloud gehostet werden. Der Benennungsstandard des Leitfadens für S3-Buckets und -Pfade hilft Ihnen dabei, die Steuerung und Observabilität in Ihren Data Lakes zu verbessern, Kosten nach Datenschichten zu ermitteln und bietet einen Ansatz für die BenennungAWS Identity and Access Management (IAM) von Rollen und Richtlinien.AWS-Konto

Wir empfehlen, dass Sie in Ihren Data Lakes mindestens drei Datenschichten verwenden und dass jede Ebene einen separaten S3-Bucket verwendet. Für einige Anwendungsfälle sind jedoch möglicherweise ein zusätzlicher S3-Bucket und eine zusätzliche Datenschicht erforderlich, abhängig von den Datentypen, die Sie generieren und speichern. Wenn Sie beispielsweise vertrauliche Daten speichern, empfehlen wir, eine Landingzone-Datenschicht und einen separaten S3-Bucket zu verwenden. In der folgenden Liste werden die drei empfohlenen Datenschichten für Ihren Data Lake beschrieben:

Rohdatenschicht — Enthält Rohdaten und ist die Ebene, in der Daten ursprünglich aufgenommen werden. Wenn möglich, empfehlen wir, das ursprüngliche Dateiformat beizubehalten und die Versionierung im S3-Bucket zu aktivieren.
Stage-Datenschicht — Enthält verarbeitete Zwischendaten, die für den Verbrauch optimiert sind (z. B. CSV-zu-Apache Parquet-konvertierte Rohdateien oder Datentransformationen). EinAWS Glue Job liest die Dateien aus der Rohschicht und validiert die Daten. DerAWS Glue Job speichert die Daten dann in einer Datei im Apache Parquet-Format und die Metadaten werden in einer Tabelle imAWS Glue Datenkatalog gespeichert.
Analytics-Datenschicht — Enthält die aggregierten Daten für Ihre spezifischen Anwendungsfälle in einem gebrauchsfertigen Format (z. B. Apache Parquet).

Die Empfehlungen dieses Leitfadens basieren auf der Erfahrung der Autoren bei der Implementierung von Data Lakes mit dem Serverless Data Lake Framework (SDLF) und richten sich an Datenarchitekten, Dateningenieure oder Lösungsarchitekten, die einen Data Lake auf dem einrichten möchtenAWS Cloud. Sie müssen jedoch sicherstellen, dass Sie den Ansatz dieses Leitfadens an die Richtlinien und Anforderungen Ihres Unternehmens anpassen.

Das Handbuch enthält die folgenden Abschnitte:

Gezielte Geschäftsergebnisse

Nach der Implementierung eines Benennungsstandards für S3-Buckets und -Pfade in Data Lakes in derAWS Cloud sollten Sie mit den folgenden fünf Ergebnissen rechnen:

Verbesserte Steuerung und Beobachtbarkeit in Ihrem Data Lake.
Verbesserter Einblick in Ihre Gesamtkosten für EinzelpersonenAWS-Konten durch die Verwendung der entsprechendenAWS Konto-ID im S3-Bucket-Namen und für Datenebenen durch die Verwendung von Kostenzuweisungs-Tags für die S3-Buckets.
Kostengünstigere Datenspeicherung durch schichtbasierte Versionierung und pfadbasierte Lebenszyklusrichtlinien.
Erfüllen Sie die Sicherheitsanforderungen für Datenmaskierung und Datenverschlüsselung.
Vereinfachen Sie die Rückverfolgung von Datenquellen, indem Sie den Entwicklern den Überblick über denAWS-Region undAWS-Konto über den zugrunde liegenden Datenspeicher verschaffen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Empfohlene Datenebenen von