翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
一元化されたカタログ
次の図は、一元化されたカタログがデータレイク内のデータプロデューサーとデータコンシューマーを接続する方法を示しています。

一元化されたカタログは、データプロデューサーアカウントの共有データカタログを保存および管理します。一元化されたカタログは、共有データの技術メタデータ (テーブル名やスキーマなど) もホストし、データコンシューマーがデータにアクセスする場所でもあります。
データコンシューマーは、一元化されたカタログ内の複数のデータプロデューサーのデータにアクセスし、このデータを独自のデータと組み合わせてさらに処理できます。一元化されたカタログを使用すると、データコンシューマーがさまざまなデータプロデューサーに直接接続する必要がなくなり、運用上のオーバーヘッドが軽減されます。
一元化されたカタログは、データプロデューサーとコンシューマーによるデータ共有とデータ消費を可視化できるため、一元化されたデータガバナンス機能 (アクセス監査など) を適用するのに最適な場所です。
以下のセクションでは、一元化されたカタログが AWS Lake Formation と を使用する方法について説明します AWS Glue。
AWS Lake Formation
AWS Lake Formation は、 AWS Glue データレイク内の複数のデータプロデューサーの場所を指すデータベースを データカタログに作成するために役立ちます。Lake Formation の AWS Identity and Access Management (IAM) ロールは、一元化されたカタログに作成されます。Lake Formation を使用することで、一元化されたカタログはデータリソース (データベース、テーブル、列など) をデータコンシューマーと選択的に共有できます。Lake Formation マネージドリソースは、次の 2 つの方法のいずれかを使用してデータコンシューマーと共有されます。
-
名前付きリソースメソッド – このメソッドは、アカウント間でマネージドリソースを共有します。データベース、テーブル、または列名を指定する必要があり、リソースを組織、組織単位 (OU)、または と共有できます AWS アカウント。共有と管理のオーバーヘッドを減らすには、可能な限り高いレベル (たとえば、 ではなく組織や OU AWS アカウント) でリソースを共有することをお勧めします。ただし、このアプローチが組織のデータセキュリティコントロール要件を満たしていることを確認する必要があります。
-
注: この方法は、 AWS サービスがデータプロデューサーからデータを消費するアプリケーションタイプのデータコンシューマーに適しています。このタイプのデータコンシューマーからのデータアクセス要件は、アプリケーション駆動型、規範的、比較的静的です。
-
-
Lake Formation タグベースのアクセスコントロール (LF-TBAC) メソッド – LF-TBAC は、データ供給タイプのデータコンシューマーに特に役立ちます。ただし、Lake Formation のタグ付けされたリソースは現在、組織 AWS アカウント レベルまたは OU レベルでのみ共有できます。
AWS Glue
集中型カタログ内のデータプロデューサー AWS Glue ごとに、 にデータベースを作成する必要があります。集中型カタログは AWS Glue を使用してすべてのデータプロデューサーからデータベースをホストするため、データベース名がすべてのデータプロデューサーで一意であり、データプロデューサーとそのデータタイプを反映していることを確認する必要があります。たとえば、次のデータベース命名構造を使用できます。 <Data_Producer>–<Environment>–<Data_Group>
-
<Data_Producer>
– データプロデューサーの名前。 -
<Environment>
–dev
開発環境、sit
システム統合テスト環境、prod
本番環境などのデータレイク環境。 -
<Data_Group>
– データプロデューサーから論理グループにデータを分離するために使用されるデータグループの名前。ソースシステム名、ID、または略語を名前として使用できます。データベースの説明は、データベースの内容と目的を記述するのに役立ちます。
データプロデューサーのデータに AWS Glue クローラを使用して、一元化されたカタログのデータベースにスキーマを維持できます。データプロデューサーが同じ頻度で定期的にデータを作成する場合は、単一の AWS Glue クローラを使用できます。それ以外の場合は、異なるクローリング頻度に対応するために複数の AWS Glue クローラを使用する必要があります。ビジネスユースケースに応じて、クローラは事前定義された頻度でスケジュールすることも、イベントによって開始することもできます。
API を呼び出し AWS Glue てスキーマを作成または更新 AWS Glue することで、 でテーブルスキーマを維持することもできます。これにより柔軟性が得られますが、コードの開発とメンテナンスには追加の労力が必要です。ユースケースとビジネス価値を評価し、要件を満たすオプションを選択し、オーバーヘッドを最小限に抑えます。