データレイクレイヤーの Amazon S3 バケットとパス名の定義

Andres Cantor、Amazon Web Services

2025 年 4 月 (ドキュメント履歴）

このガイドは、でホストされているデータレイクで Amazon Simple Storage Service (Amazon S3) バケットとパスの一貫した命名基準を作成するのに役立ちます AWS クラウド。このガイドの Amazon S3 バケットとパスの命名基準は、データレイクのガバナンスとオブザーバビリティを向上させ、データレイヤー別にコストを特定し AWS アカウント、 AWS Identity and Access Management (IAM) ロールとポリシーの命名方法を提供します。

データレイクには少なくとも 3 つのデータレイヤーを使用し、各レイヤーは個別の Amazon S3 バケットを使用することをお勧めします。ただし、生成して保存するデータ型によっては、追加の Amazon S3 バケットとデータレイヤーが必要になるユースケースもあります。たとえば、機密データを保存する場合は、ランディングゾーンのデータレイヤーと別の Amazon S3 バケットを使用することをお勧めします。次のリストは、データレイクに推奨される 3 つのデータレイヤーを示しています。

Raw データレイヤー – raw データが含まれ、データが最初に取り込まれるレイヤーです。可能であれば、元のファイル形式を保持し、Amazon S3 バケットでバージョニングを有効にすることをお勧めします。
ステージデータレイヤー – 消費用に最適化された中間処理データ (CSV から Apache Parquet に変換された未加工ファイルやデータ変換など) が含まれます。 AWS Glue ジョブは raw レイヤーからファイルを読み取り、データを検証します。次に、 AWS Glue ジョブは Apache Parquet 形式のファイルにデータを保存し、メタデータはのテーブルに保存されます AWS Glue Data Catalog。
分析データレイヤー – Apache Parquet など、特定のユースケースの集計データをすぐに使用できる形式で格納します。

対象者

このガイドの推奨事項は、サーバーレスデータレイクフレームワーク (SDLF) を使用してデータレイクを実装した作成者の経験に基づいており、でデータレイクをセットアップしたいデータアーキテクト、データエンジニア、またはソリューションアーキテクトを対象としています AWS クラウド。ただし、このガイドのアプローチは、組織のポリシーと要件を満たすように適応してください。

このガイドには、以下のセクションが含まれています。

ターゲットを絞ったビジネス成果

のデータレイクに Amazon S3 バケットとパスの命名基準を実装した後、次の結果が期待されます AWS クラウド。

バケットに差別化されたアクセスポリシーを提供できるようにすることで、データレイクのガバナンスを改善
Amazon S3 バケット名で関連する AWS アカウント ID AWS アカウントを使用し、バケットのコスト配分タグを使用してデータレイヤーの全体的なコストを可視化
レイヤーベースのバージョニングとパスベースのライフサイクルポリシーを使用した、コスト効率の高いデータストレージ
データマスキングとデータ暗号化のセキュリティ要件を満たす
開発者が基盤となるデータストレージ AWS アカウントの AWS リージョンとを可視化できるようにすることで、データソースのトレースを簡素化する

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

推奨されるデータレイヤー