AWSクラウド上のデータレイクレイヤーの S3 バケット名とパス名の定義 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWSクラウド上のデータレイクレイヤーの S3 バケット名とパス名の定義

Amazon Web Services イザベル・イマクセン、サミュエル・シュミット、アンドレス・カンター (AWS)

2021年11月 (ドキュメント履歴)

このガイドは、Amazon Simple Simple Simple SSimple Storage Service (Amazon S3) Simple Simple Simple Simple Simple Simple Simple Simple Simple Simple Simple Simple Simple Simple Simple SimpleAWS このガイドの S3 バケットとパスの命名基準は、データレイクのガバナンスとオブザーバビリティを向上させ、データレイヤーごとにコストを特定するのに役立ちAWS アカウント、ロールとポリシーを命名AWS Identity and Access Management (IAM) するためのアプローチも提供します。

データレイクには少なくとも 3 つのデータレイヤーを使用し、各レイヤーは個別の S3 バケットを使用することをお勧めします。ただし、ユースケースによっては、生成して保存するデータタイプによっては、追加の S3 バケットとデータレイヤーが必要になる場合があります。たとえば、機密データを保存する場合は、landing zone データレイヤーと別の S3 バケットを使用することをお勧めします。次のリストは、データレイクに推奨される 3 つのデータレイヤーを示しています。

  • 未処理データレイヤー — 未処理データを含み、データが最初に取り込まれるレイヤーです。可能であれば、元のファイル形式を維持し、S3 バケットのバージョン管理を有効にすることをお勧めします。

  • ステージデータレイヤー — 使用に最適化された処理済みの中間データ (CSV から Apache Parquet に変換された未処理ファイルまたはデータ変換など) が含まれます。AWS Glueジョブは未処理レイヤーからファイルを読み取り、データを検証します。その後、AWS Glueジョブはデータを Apache Parquet 形式のファイルに保存し、AWS Glueメタデータはデータカタログのテーブルに保存されます。

  • 分析データレイヤー — 特定のユースケースの集計データを、すぐに使用できる形式 (Apache Parquet など) で格納します。

このガイドの推奨事項は、サーバレスデータレイクフレームワーク (SDLF) を使用してデータレイクを実装した著者の経験に基づいており、にデータレイクを設定したいデータアーキテクト、データエンジニア、またはソリューションアーキテクトを対象としていますAWS クラウド。ただし、このガイドのアプローチを組織のポリシーと要件に合わせて調整する必要があります。

このガイドには以下のセクションが含まれています。

ターゲットを絞ったビジネス成果

AWSクラウド上のデータレイクに S3 バケットとパスの命名基準を実装すると、次の 5 つの結果が期待できます。

  • データレイクのガバナンスとオブザーバビリティが向上しました。

  • S3AWS バケット名に関連するアカウント IDAWS アカウント を使用することで個々のコスト全体を、S3 バケットのコスト配分タグを使用してデータレイヤーの全体的なコストをより把握しやすくなりました

  • レイヤーベースのバージョン管理とパスベースのライフサイクルポリシーを使用することで、コスト効率の高いデータストレージを実現できます。

  • データマスキングとデータ暗号化のセキュリティ要件を満たします。

  • 基盤となるデータストレージの開発者の可視性を高めることで、AWS リージョンAWS アカウントデータソーストレースを簡素化します。