EMR Serverless の Lake Formation のフィルタリングされていないアクセス

Amazon EMR リリース 7.8.0 以降では、ジョブランタイムロールにきめ細かなアクセスコントロールの制限なしに完全なテーブルアクセス許可がある Glue Data Catalog で AWS Lake Formation を活用できます。この機能を使用すると、EMR Serverless Spark バッチジョブとインタラクティブジョブから Lake Formation によって保護されているテーブルを読み書きできます。Lake Formation の詳細と EMR Serverless での使用方法については、以下のセクションを参照してください。

フルテーブルアクセスでの Lake Formation の使用

AWS Lake Formation で保護された Glue データカタログテーブルには、EMR Serverless Spark ジョブまたはジョブのランタイムロールにフルテーブルアクセスがあるインタラクティブセッションからアクセスできます。EMR Serverless アプリケーションで AWS Lake Formation を有効にする必要はありません。Spark ジョブがフルテーブルアクセス (FTA) 用に設定されている場合、 AWS Lake Formation 認証情報は AWS Lake Formation 登録テーブルの S3 データの読み取り/書き込みに使用され、ジョブのランタイムロール認証情報は AWS Lake Formation に登録されていないテーブルの読み取り/書き込みに使用されます。

重要

きめ細かなアクセスコントロールのために AWS Lake Formation を有効にしないでください。ジョブは、同じ EMR クラスターまたはアプリケーションでフルテーブルアクセス (FTA) ときめ細かなアクセスコントロール (FGAC) を同時に実行することはできません。

ステップ 1: Lake Formation でテーブルへのフルアクセスを有効にする

フルテーブルアクセス (FTA) モードを使用するには、 AWS Lake Formation で IAM セッションタグの検証を行うことなく、サードパーティーのクエリエンジンがデータにアクセスすることを許可する必要があります。有効にするには、「フルテーブルアクセスのためのアプリケーション統合」のステップに従います。

注記

クロスアカウントテーブルにアクセスする場合、プロデューサーアカウントとコンシューマーアカウントの両方でフルテーブルアクセスを有効にする必要があります。同様に、クロスリージョンテーブルにアクセスする場合、この設定はプロデューサーリージョンとコンシューマーリージョンの両方で有効にする必要があります。

ステップ 2: ジョブランタイムロールの IAM アクセス許可を設定する

基になるデータへの読み取りまたは書き込みアクセスには、Lake Formation アクセス許可に加えて、ジョブランタイムロールには lakeformation:GetDataAccess IAM アクセス許可が必要です。この許可があると、Lake Formation がデータにアクセスするための一時的な認証情報のリクエストを承諾します。

以下は、Amazon S3 のスクリプトにアクセスするための IAM アクセス許可、S3 へのログのアップロード、 AWS Glue API アクセス許可、Lake Formation へのアクセス許可を提供する方法のポリシー例です。

ステップ 2.1 Lake Formation アクセス許可を設定する

S3 からデータを読み取る Spark ジョブには、Lake Formation SELECT アクセス許可が必要です。
S3 でデータを書き込み/削除する Spark ジョブには、Lake Formation ALL (SUPER) アクセス許可が必要です。
Glue データカタログを操作する Spark ジョブには、必要に応じて DESCRIBE、ALTER、DROP アクセス許可が必要です。

詳細については、「データカタログリソースに対するアクセス許可の付与」を参照してください。

ステップ 3: Lake Formation を使用してフルテーブルアクセス用の Spark セッションを初期化する

前提条件

AWS Glue Data Catalog は、Lake Formation テーブルにアクセスするためのメタストアとして設定する必要があります。

Glue カタログをメタストアとして設定するには、次の設定を行います。


--conf spark.sql.catalogImplementation=hive
--conf spark.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

EMR Serverless のデータカタログを有効にする方法の詳細については、「EMR Serverless のメタストア設定」を参照してください。

AWS Lake Formation に登録されたテーブルにアクセスするには、Spark の初期化中に Lake AWS Formation 認証情報を使用するように Spark を設定するには、次の設定を行う必要があります。

spark.hadoop.fs.s3.credentialsResolverClass=com.amazonaws.glue.accesscontrol.AWSLakeFormationCredentialResolver: Lake Formation 登録済みテーブルに AWS Lake Formation S3 認証情報を使用するように EMR ファイルシステム (EMRFS) を設定します。テーブルが登録されていない場合は、ジョブのランタイムロール認証情報を使用します。
spark.hadoop.fs.s3.useDirectoryHeaderAsFolderObject=true および spark.hadoop.fs.s3.folderObject.autoAction.disabled=true: S3 フォルダの作成時に $folder$ サフィックスの代わりにコンテンツタイプヘッダー application/x-directory を使用するように EMRFS を設定します。Lake Formation 認証情報は $folder$ サフィックスを持つテーブルフォルダの読み取りを許可しないため、これは Lake Formation テーブルを読み取るときに必要です。
spark.sql.catalog.skipLocationValidationOnCreateTable.enabled=true: 作成前に空のテーブルの場所を検証するステップをスキップするよう Spark を設定します。これは、Lake Formation の登録済みテーブルに必要です。これは、Lake Formation 認証情報が空の場所を検証するために、 Glue Data Catalog テーブルの作成後にのみ使用できるためです。この設定がない場合、ジョブのランタイムロール認証情報によって空のテーブルの場所が検証されます。
spark.sql.catalog.createDirectoryAfterTable.enabled=true: Hive メタストアでテーブルを作成した後に Amazon S3 フォルダを作成するよう Spark を設定します。S3 フォルダを作成するための Lake Formation 認証情報は Glue Data Catalog テーブルの作成後にのみ使用できるため、これは Lake Formation の登録済みテーブルに必要です。
spark.sql.catalog.dropDirectoryBeforeTable.enabled=true: Hive メタストアでテーブルを削除する前に S3 フォルダを削除するように Spark を設定します。Lake Formation が S3 フォルダを削除するための Lake Formation 認証情報は Glue データカタログからテーブルを削除した後は使用できないため、これは Lake Formation の登録済みテーブルに必要です。
spark.sql.catalog.<catalog>.glue.lakeformation-enabled=true: AWS Lake Formation 登録済みテーブルに Lake Formation S3 認証情報を使用するように Iceberg カタログを設定します。テーブルが登録されていない場合は、デフォルトの環境認証情報を使用します。

SageMaker Unified Studio でフルテーブルアクセスモードを設定する

JupyterLab ノートブックのインタラクティブ Spark セッションから Lake Formation 登録済みテーブルにアクセスするには、互換性アクセス許可モードを使用する必要があります。%%configure magic コマンドを使用して Spark 設定をセットアップします。次のテーブルタイプに基づいて設定を選択します。

プレースホルダーを置き換えます:

S3_DATA_LOCATION: S3 バケットパス
REGION： AWS region (us-east-1 など）
ACCOUNT_ID: AWS アカウント ID

注記

ノートブックで Spark 操作を実行する前に、これらの設定を行う必要があります。

サポートされているオペレーション

これらのオペレーションでは、 AWS Lake Formation 認証情報を使用してテーブルデータにアクセスします。

CREATE TABLE
ALTER TABLE
INSERT INTO
INSERT OVERWRITE
UPDATE
MERGE INTO
DELETE FROM
ANALYZE TABLE
REPAIR TABLE
DROP TABLE
Spark データソースクエリ
Spark データソース書き込み

注記

上記に示されていない操作は、引き続き IAM アクセス許可を使用してテーブルデータにアクセスします。

考慮事項

フルテーブルアクセスが有効になっていないジョブを使用して Hive テーブルが作成され、レコードが挿入されない場合、フルテーブルアクセスを持つジョブからのその後の読み取りまたは書き込みは失敗します。これは、完全なテーブルアクセスがない EMR Spark がテーブルフォルダ名に $folder$ サフィックスを追加するためです。この問題は、以下のいずれかの方法で解決できます。
- FTA が有効になっていないジョブからテーブルに少なくとも 1 つの行を挿入します。
- S3 のフォルダ名に $folder$ サフィックスを使用しないように FTA が有効になっていないジョブを設定します。そのために、Spark の設定を spark.hadoop.fs.s3.useDirectoryHeaderAsFolderObject=true にします。
- S3 コンソールまたは AWS S3 CLI s3://path/to/table/table_nameを使用して、テーブルの場所に AWS S3 フォルダを作成します。
フルテーブルアクセスは EMR ファイルシステム (EMRFS) でのみ機能します。S3A ファイルシステムは互換性がありません。
フルテーブルアクセスは、Hive テーブルと Iceberg テーブルでサポートされています。Hudi と Delta テーブルのサポートはまだ追加されていません。
Lake Formation のきめ細かなアクセスコントロール (FGAC) ルールまたは Glue データカタログビューを持つテーブルを参照するジョブは失敗します。FGAC ルールまたは Glue データカタログビューを使用してテーブルをクエリするには、FGAC モードを使用する必要があります。FGAC モードを有効にするには、「AWS Lake Formation で EMR Serverless を使用してきめ細かなアクセスコントロール」の AWS ドキュメントで説明されているステップに従います。
フルテーブルアクセスは Spark ストリーミングをサポートしていません。
Lake Formation テーブルに Spark DataFrame を書き込む場合、APPEND モードのみがサポートされます。 df.write.mode("append").saveAsTable(table_name)

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

EMR Serverless での Lake Formation の使用

FGAC のための Lake Formation