Amazon EMR と AWS Lake Formation の統合
AWS Lake Formation は、Amazon Simple Storage Service (S3) データレイク内のデータを検出、カタログ、クレンジング、保護するのに役立つマネージドサービスです。Lake Formation は、AWS Glue Data Catalog 内のデータベースとテーブルへのきめ細かな列レベルのアクセスを実現します。詳細については、「AWS Lake Formation とは?」を参照してください。
Amazon EMR リリース 6.7.0 以降では、Amazon EMR クラスターに送信する Spark、Hive、Presto のジョブに Lake Formation ベースのアクセスコントロールを適用できます。Lake Formation と統合するには、ランタイムロールを使用する EMR クラスターを作成する必要があります。ランタイムロールは、Amazon EMR のジョブまたはクエリに関連付ける AWS Identity and Access Management (IAM) ロールです。次に、Amazon EMR はこのロールを使用して AWS リソースにアクセスします。詳細については、「Amazon EMR ステップのランタイムロール」を参照してください。
Amazon EMR と Lake Formation の連携の仕組み
Amazon EMR と Lake Formation を統合すると、Step
API
以下は、Amazon EMR が Lake Formation セキュリティポリシーで保護されたデータにアクセスする方法の概要を示します。
-
ユーザーが Lake Formation 内のデータに対して Amazon EMR クエリを送信します。
-
Amazon EMR は、ユーザーにデータアクセス権を付与するために、Lake Formation に一時的な認証情報をリクエストします。
-
Lake Formation が一時的な認証情報を返します。
-
Amazon EMR は、Amazon S3 からデータを取り出すためのクエリリクエストを送信します。
-
Amazon EMR は Amazon S3 からデータを受信し、ユーザーが Lake Formation で定義したユーザーアクセス許可に基づいてフィルタリングし、結果を返します。
Lake Formation ポリシーへのユーザーおよびグループの追加については、「Granting Data Catalog permissions」を参照してください。
前提条件
Amazon EMR と Lake Formation を統合する前に、次の要件を満たす必要があります。
-
Amazon EMR クラスターでランタイムロール認証を有効にします。
-
AWS Glue Data Catalog をメタデータストアとして使用します。
-
AWS Glue Data Catalog 内のデータベース、テーブル、および列にアクセスをするためのアクセス許可を Lake Formation で定義して管理している。詳細については、「AWS Lake Formation とは?」を参照してください。