一元化されたカタログ

次の図は、一元化されたカタログがデータレイク内のデータプロデューサーとデータコンシューマーを接続する方法を示しています。

一元化されたカタログは、データプロデューサーアカウントの共有データカタログを保存および管理します。一元化されたカタログは、共有データの技術メタデータ (テーブル名やスキーマなど) もホストし、データコンシューマーがデータにアクセスする場所でもあります。

データコンシューマーは、一元化されたカタログ内の複数のデータプロデューサーのデータにアクセスし、このデータを独自のデータと組み合わせてさらに処理できます。一元化されたカタログを使用すると、データコンシューマーがさまざまなデータプロデューサーに直接接続する必要がなくなり、運用上のオーバーヘッドが軽減されます。

一元化されたカタログは、データプロデューサーとコンシューマーによるデータ共有とデータ消費を可視化できるため、一元化されたデータガバナンス機能 (アクセス監査など) を適用するのに最適な場所です。

以下のセクションでは、一元化されたカタログが AWS Lake Formation とを使用する方法について説明します AWS Glue。

AWS Lake Formation

AWS Lake Formation は、 AWS Glue データレイク内の複数のデータプロデューサーの場所を指すデータベースをデータカタログに作成するために役立ちます。Lake Formation の AWS Identity and Access Management (IAM) ロールは、一元化されたカタログに作成されます。Lake Formation を使用することで、一元化されたカタログはデータリソース (データベース、テーブル、列など) をデータコンシューマーと選択的に共有できます。Lake Formation マネージドリソースは、次の 2 つの方法のいずれかを使用してデータコンシューマーと共有されます。

名前付きリソースメソッド – このメソッドは、アカウント間でマネージドリソースを共有します。データベース、テーブル、または列名を指定する必要があり、リソースを組織、組織単位 (OU)、またはと共有できます AWS アカウント。共有と管理のオーバーヘッドを減らすには、可能な限り高いレベル (たとえば、ではなく組織や OU AWS アカウント) でリソースを共有することをお勧めします。ただし、このアプローチが組織のデータセキュリティコントロール要件を満たしていることを確認する必要があります。
- 注: この方法は、 AWS サービスがデータプロデューサーからデータを消費するアプリケーションタイプのデータコンシューマーに適しています。このタイプのデータコンシューマーからのデータアクセス要件は、アプリケーション駆動型、規範的、比較的静的です。
Lake Formation タグベースのアクセスコントロール (LF-TBAC) メソッド – LF-TBAC は、データ供給タイプのデータコンシューマーに特に役立ちます。ただし、Lake Formation のタグ付けされたリソースは現在、組織 AWS アカウントレベルまたは OU レベルでのみ共有できます。

AWS Glue

集中型カタログ内のデータプロデューサー AWS Glue ごとに、にデータベースを作成する必要があります。集中型カタログは AWS Glue を使用してすべてのデータプロデューサーからデータベースをホストするため、データベース名がすべてのデータプロデューサーで一意であり、データプロデューサーとそのデータタイプを反映していることを確認する必要があります。たとえば、次のデータベース命名構造を使用できます。 <Data_Producer>–<Environment>–<Data_Group>

<Data_Producer> – データプロデューサーの名前。
<Environment> – dev開発環境、sitシステム統合テスト環境、prod本番環境などのデータレイク環境。
<Data_Group> – データプロデューサーから論理グループにデータを分離するために使用されるデータグループの名前。ソースシステム名、ID、または略語を名前として使用できます。データベースの説明は、データベースの内容と目的を記述するのに役立ちます。

データプロデューサーのデータに AWS Glue クローラを使用して、一元化されたカタログのデータベースにスキーマを維持できます。データプロデューサーが同じ頻度で定期的にデータを作成する場合は、単一の AWS Glue クローラを使用できます。それ以外の場合は、異なるクローリング頻度に対応するために複数の AWS Glue クローラを使用する必要があります。ビジネスユースケースに応じて、クローラは事前定義された頻度でスケジュールすることも、イベントによって開始することもできます。

API を呼び出し AWS Glue てスキーマを作成または更新 AWS Glue することで、でテーブルスキーマを維持することもできます。これにより柔軟性が得られますが、コードの開発とメンテナンスには追加の労力が必要です。ユースケースとビジネス価値を評価し、要件を満たすオプションを選択し、オーバーヘッドを最小限に抑えます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

データプロデューサー

データコンシューマー