Amazon EMR と AWS Lake Formation の統合 - Amazon EMR

Amazon EMR と AWS Lake Formation の統合

AWS Lake Formation は、Amazon Simple Storage Service (S3) データレイク内のデータを検出、カタログ、クレンジング、保護するのに役立つマネージドサービスです。Lake Formation は、AWS Glue Data Catalog 内のデータベースとテーブルへのきめ細かな列レベルのアクセスを実現します。詳細については、「AWS Lake Formation とは?」を参照してください。

Amazon EMR リリース 6.7.0 以降では、Amazon EMR クラスターに送信する Spark、Hive、Presto のジョブに Lake Formation ベースのアクセスコントロールを適用できます。Lake Formation と統合するには、ランタイムロールを使用する EMR クラスターを作成する必要があります。ランタイムロールは、Amazon EMR のジョブまたはクエリに関連付ける AWS Identity and Access Management (IAM) ロールです。次に、Amazon EMR はこのロールを使用して AWS リソースにアクセスします。詳細については、「Amazon EMR ステップのランタイムロール」を参照してください。

Amazon EMR と Lake Formation の連携の仕組み

Amazon EMR と Lake Formation を統合すると、Step API または SageMaker Studio を使用して Amazon EMR クラスターへのクエリを実行できます。その後、Lake Formation は Amazon EMR 用の一時的な認証情報を使用してデータへのアクセスを提供します。このプロセスは、認証情報の供給と呼ばれます。詳細については、「AWS Lake Formation とは?」を参照してください。

以下は、Amazon EMR が Lake Formation セキュリティポリシーで保護されたデータにアクセスする方法の概要を示します。


				Amazon EMR が Lake Formation セキュリティポリシーで保護されているデータにアクセスする方法
  1. ユーザーが Lake Formation 内のデータに対して Amazon EMR クエリを送信します。

  2. Amazon EMR は、ユーザーにデータアクセス権を付与するために、Lake Formation に一時的な認証情報をリクエストします。

  3. Lake Formation が一時的な認証情報を返します。

  4. Amazon EMR は、Amazon S3 からデータを取り出すためのクエリリクエストを送信します。

  5. Amazon EMR は Amazon S3 からデータを受信し、ユーザーが Lake Formation で定義したユーザーアクセス許可に基づいてフィルタリングし、結果を返します。

Lake Formation ポリシーへのユーザーおよびグループの追加については、「Granting Data Catalog permissions」を参照してください。

前提条件

Amazon EMR と Lake Formation を統合する前に、次の要件を満たす必要があります。

  • Amazon EMR クラスターでランタイムロール認証を有効にします。

  • AWS Glue Data Catalog をメタデータストアとして使用します。

  • AWS Glue Data Catalog 内のデータベース、テーブル、および列にアクセスをするためのアクセス許可を Lake Formation で定義して管理している。詳細については、「AWS Lake Formation とは?」を参照してください。