Amazon EMR AWS Lake Formation での の使用 - AWS Lake Formation

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR AWS Lake Formation での の使用

Amazon EMR は、Hadoop Map-Reduce、Spark、Hive、Presto など、サポートされているビッグデータフレームワークで任意のカスタムコードを実行することができる柔軟な AWS マネージドクラスタープラットフォームです。また、Organizations は Amazon EMR を使用して、高度に分散されたクラスター全体でバッチとストリームの両方のデータ処理アプリケーションを実行します。Amazon EMR で Apache Spark を使用すると、Lake Formation によってアクセス許可が管理されているデータベースとテーブルでデータ変換とカスタムコードを実行できます。

Amazon EMR をデプロイするには、3 つのオプションがあります。

  • EMR on EC2

  • EMR Serverless

  • Amazon EMR on EKS

詳細については、「Amazon EMR を Lake Formation と統合する」または「EMR Serverless を と使用してきめ細かなアクセスコントロール AWS Lake Formation を行う」を参照してください。

トランザクションテーブル形式のサポート

Amazon EMR リリース 6.15.0 以降では、Spark SQL を使用してデータを読み書きする際の Apache HudiApache Iceberg、および Delta Lake のテーブル形式に対する Lake Formation のテーブル、行、列、およびセルレベルのアクセスコントロール許可がサポートされています。

制限については、「Lake Formation を使用した Amazon EMR に関する考慮事項」を参照してください。

サポートされるテーブル形式
テーブル形式 説明と許可されるオペレーション Amazon EMR でサポートされている Lake Formation 許可

Apache Hudi

増分データ処理とデータパイプラインの開発を簡素化するために使用されるオープンテーブル形式。

サポートされているオペレーションのリストについては、「Apache Hudi と Lake Formation」を参照してください。

Amazon EMR は、Apache Hudi を使用した、テーブル、行、列、セルレベルのアクセスコントロールをサポートしています。

Apache Iceberg

大量のファイルのコレクションをテーブルとして管理するオープンテーブル形式。

サポートされているオペレーションのリストについては、「Apache Iceberg と Lake Formation」を参照してください。

Amazon EMR は、Apache Iceberg を使用した、テーブル、行、列、セルレベルのアクセスコントロールをサポートしています。

Linux Foundation Delta Lake

Delta Lake は、一般的に Amazon S3 または File system distribuito Hadoop (HDFS) 上に構築される最新のデータレイクアーキテクチャの実装を支援するオープンソースプロジェクトです。

サポートされているオペレーションのリストについては、「Delta Lake と Lake Formation」を参照してください。

Amazon EMR は、Delta Lake テーブルによるテーブル、行、列、およびセルレベルのアクセスコントロールをサポートしています。

追加リソース

ユーザーガイド、ブログ投稿、ワークショップ