他の AWS のサービスとの統合 - AWS Glue

他の AWS のサービスとの統合

AWS Glue クローラー を使用して AWS Glue Data Catalog にデータを入力することもできますが、いくつかの AWS サービスではカタログに自動的に統合し、データを入力することができます。以下のセクションでは、データカタログに入力できる AWS サービスでサポートされる特定のユースケースについて詳しく説明します。

AWS Lake Formation

AWS Lake Formation は、AWS で簡単にセキュアなデータレイクを構築できるサービスです。Lake Formation は AWS Glue 上に構築され、Lake Formation と AWS Glue は同じ AWS Glue Data Catalog を共有します。Amazon S3 データロケーションを Lake Formation に登録し、Lake Formation コンソールを使用して、AWS Glue データカタログにデータベースとテーブルを作成し、データアクセスポリシーを定義し、データレイク全体のデータアクセスを一元的に監査できます。Lake Formation の細粒度のアクセスコントロールを使用して、既存のデータカタログリソースと Amazon S3 データロケーションを管理できます。

Lake Formation に登録されたデータを使用すると、IAM プリンシパル、AWS アカウント、AWS 組織、組織単位間でデータカタログリソースを安全に共有できます。

Lake Formation を使用したデータカタログリソースの作成の詳細については、AWS Lake Formation デベロッパーガイドの「データカタログのテーブルとデータベースの作成」を参照してください。

Amazon Athena

Amazon Athena は、AWS アカウントの Amazon S3 データに関するテーブルメタデータの保存と取得にデータカタログを使用します。テーブルメタデータは、Athena クエリエンジンがクエリするデータの検索、読み込み、および処理方法を把握できるようにします。

Athena CREATE TABLE ステートメントを直接使用して、AWS Glue Data Catalog にデータを入力できます。クローラーを実行することなく、データカタログでスキーマとパーティションメタデータを手動で定義してデータを入力できます。

  1. Athena コンソールで、テーブルメタデータをデータカタログに保存するデータベースを作成します。

  2. CREATE EXTERNAL TABLE ステートメントを使用して、データソースのスキーマを定義します。

  3. データがパーティション化されている場合は、PARTITIONED BY 句を使用してパーティションキーを定義します。

  4. LOCATION 句を使用して、実際のデータファイルを保存する Amazon S3 パスを指定します。

  5. CREATE TABLE ステートメントを実行します。

    このクエリは、実際にデータをクロールすることなく、定義したスキーマとパーティションに基づいてデータカタログにテーブルメタデータを作成します。

Athena でテーブルにクエリを実行すると、データカタログのメタデータを使用して Amazon S3 のデータファイルにアクセスしてクエリを実行できます。

詳細については、Amazon Athena ユーザーガイドの「データベースとテーブルの作成」を参照してください。