AWS Lake Formation で を使用する AWS Glue - AWS Lake Formation

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Lake Formation で を使用する AWS Glue

データエンジニアと DevOps プロフェッショナルは、Apache Spark AWS Glue で抽出、変換、ロード (ETL) を使用して Amazon S3 のデータセットに対して変換を実行し、変換されたデータをデータレイクとデータウェアハウスにロードして分析、機械学習、アプリケーション開発を行います。複数のチームが Amazon S3 の同じデータセットにアクセスする場合、それぞれのロールに基づいてアクセス許可を付与および制限することが不可欠です。

AWS Lake Formation は 上に構築されており AWS Glue、サービスは次の方法でやり取りします。

  • Lake Formation と AWS Glue は同じ Data Catalog を共有しています。

  • 以下の Lake Formation コンソール機能は、AWS Glue コンソールを呼び出します。

  • Lake Formation のブループリントを使用するときに生成されるワークフローは、AWS Glue ワークフローです。これらのワークフローは、Lake Formation コンソールと AWS Glue コンソールの両方で表示および管理できます。

  • Lake Formation では機械学習変換が提供されており、これらは AWS Glue API 操作上に構築されています。機械学習変換は AWS Glue コンソールで作成し、管理します。詳細については、「AWS Glue デベロッパーガイド」の「機械学習変換」を参照してください。

Lake Formation の細粒度のアクセスコントロールを使用して、既存のデータカタログリソースと Amazon S3 データロケーションを管理できます。

注記

AWS Glue ETL では、基盤となる Amazon S3 の場所からデータを取得するときに、テーブル全体へのフルアクセスが必要です。テーブルに列レベルのアクセス許可を適用すると、 AWS Glue ETL ジョブは失敗します。

トランザクションテーブルタイプのサポート

Lake Formation アクセス許可を適用すると、Amazon S3 ベースのデータレイク内のトランザクションデータを保護できます。以下の表は、 でサポートされているトランザクションテーブル形式 AWS Glue と Lake Formation のアクセス許可の一覧です。Lake Formation は AWS Glue 、オペレーションにこれらのアクセス許可を適用します。

サポートされるテーブル形式
テーブル形式 説明と許可されるオペレーション でサポートされている Lake Formation 許可 AWS Glue

Apache Hudi

増分データ処理とデータパイプラインの開発を簡素化するために使用されるオープンテーブル形式。

例については、「 での Hudi フレームワークの使用 AWS Glue」を参照してください。

テーブルレベルのアクセス許可は、Hudi テーブルで利用できます。

詳細については、「制限」を参照してください。

Apache Iceberg

大量のファイルのコレクションをテーブルとして管理するオープンテーブル形式。

例については、「 での Iceberg フレームワークの使用 AWS Glue」を参照してください。

テーブルレベルのアクセス許可は、Iceberg テーブルで利用できます。

詳細については、「制限」を参照してください。

Linux Foundation Delta Lake

Delta Lake は、一般的に Amazon S3 または File system distribuito Hadoop (HDFS) 上に構築される最新のデータレイクアーキテクチャの実装を支援するオープンソースプロジェクトです。

例については、「 での Delta Lake フレームワークの使用 AWS Glue」を参照してください。

テーブルレベルのアクセス許可は、Delta Lake テーブルで利用できます。

詳細については、「制限」を参照してください。

追加リソース