Iceberg クラスターの作成 Iceberg の Spark セッションを初期化する Iceberg テーブルへの書き込み Iceberg テーブルからの読み込み Spark Iceberg AWS での Glue データカタログの使用 Spark Iceberg での Iceberg REST Catalog (IRC) の使用 Iceberg SparkCatalog と SparkSessionCatalog を使用する場合の設定の違い Iceberg Spark 拡張機能の使用 Spark で Iceberg を使用するための考慮事項

Spark で Iceberg クラスターを使用する

Amazon EMR バージョン 6.5.0 以降では、ブートストラップアクションを追加しなくても Spark クラスターで Iceberg を使用できます。Amazon EMR バージョン 6.4.0 以前の場合、ブートストラップアクションを使用して必要なすべての依存関係を事前インストールできます。

このチュートリアルでは、 AWS CLI を使用して Amazon EMR Spark クラスターで Iceberg を操作します。コンソールを使用して Iceberg がインストールされたクラスターを作成するには、「Build an Apache Iceberg data lake using Amazon Athena, Amazon EMR, and AWS Glue」の手順に従ってください。

Iceberg クラスターの作成

Iceberg がインストールされたクラスターは、、 AWS Management Console、 AWS CLI または Amazon EMR API を使用して作成できます。このチュートリアルでは、 AWS CLI を使用して Amazon EMR クラスターで Iceberg を操作します。コンソールを使用して Iceberg がインストールされたクラスターを作成するには、「Build an Apache Iceberg data lake using Amazon Athena, Amazon EMR, and AWS Glue」の手順に従ってください。

で Amazon EMR で Iceberg を使用するには AWS CLI、まず次のステップでクラスターを作成します。を使用して Iceberg 分類を指定する方法については AWS CLI、クラスターの作成 AWS CLI 時にを使用して設定を指定する「」または「」を参照してくださいクラスター作成時に Java SDK を使用して設定を指定する。

以下のコンテンツを含む configurations.json ファイルを作成します。


[{
    "Classification":"iceberg-defaults",
    "Properties":{"iceberg.enabled":"true"}
}]

次に、以下の設定でクラスターを作成します。この例の Amazon S3 バケットパスとサブネット ID は、実際の値に置き換えてください。


aws emr create-cluster --release-label emr-6.5.0 \
--applications Name=Spark \
--configurations file://configurations.json \
--region us-east-1 \
--name My_Spark_Iceberg_Cluster \
--log-uri s3://amzn-s3-demo-bucket/ \
--instance-type m5.xlarge \
--instance-count 2 \
--service-role EMR_DefaultRole_V2 \ 
--ec2-attributes InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0

または、Spark アプリケーションを含む Amazon EMR クラスターを作成し、/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar ファイルを Spark ジョブの JAR 依存関係として追加することもできます。詳細については、「Submitting Applications」を参照してください。

この jar を Spark ジョブの依存関係として含めるには、以下の設定プロパティを Spark アプリケーションに追加します。


--conf "spark.jars=/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar"

Spark ジョブの依存関係の詳細については、Apache Spark ドキュメント「Running Spark on Kubernetes」の「Dependency Management」を参照してください。

Iceberg の Spark セッションを初期化する

以下の例では、インタラクティブな Spark シェルを起動し、Spark submit を使用するか、Amazon EMR Notebooks を使用して、Amazon EMR で Iceberg を操作する方法を示します。

spark-shell

SSH を使用してマスターノードに接続します。詳細については、「Amazon EMR 管理ガイド」の「SSH を使用してマスターノードに接続する」を参照してください。

以下のコマンドを入力して、Spark シェルを起動します。PySpark シェルを使用するには、spark-shell を pyspark に置き換えます。


spark-shell \
    --conf spark.sql.catalog.my_catalog=org.apache.iceberg.spark.SparkCatalog \
    --conf spark.sql.catalog.my_catalog.warehouse=s3://amzn-s3-demo-bucket/prefix/
    --conf spark.sql.catalog.my_catalog.type=glue \
    --conf spark.sql.defaultCatalog=my_catalog \
    --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

spark-submit

SSH を使用してマスターノードに接続します。詳細については、「Amazon EMR 管理ガイド」の「SSH を使用してマスターノードに接続する」を参照してください。

以下のコマンドを入力して、Iceberg の Spark セッションを起動します。


spark-submit \
--conf spark.sql.catalog.my_catalog=org.apache.iceberg.spark.SparkCatalog \
--conf spark.sql.catalog.my_catalog.warehouse=s3://amzn-s3-demo-bucket1/prefix \
--conf spark.sql.catalog.my_catalog.type=glue \
--conf spark.sql.defaultCatalog=my_catalog \
--conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

EMR Studio notebooks

EMR Studio ノートブックを使用して Spark セッションを初期化するには、次の例のように、Amazon EMR Notebooks で %%configure マジックコマンドを使用して Spark セッションを設定します。詳細については、「Amazon EMR 管理ガイド」の「EMR Notebooks マジックを使用する」を参照してください。


%%configure -f{
"conf":{
    "spark.sql.catalog.my_catalog":"org.apache.iceberg.spark.SparkCatalog",
    "spark.sql.catalog.my_catalog.type":"glue",
    "spark.sql.catalog.my_catalog.warehouse":"s3://amzn-s3-demo-bucket1/prefix/",
    "spark.sql.defaultCatalog":"my_catalog",
    "spark.sql.extensions":"org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions"
    }
}

CLI

CLI を使用して Spark クラスターを初期化し、Spark Iceberg セッションのデフォルト設定をすべて設定するには、次のサンプルを実行します。 AWS CLI と Amazon EMR API を使用して設定分類を指定する方法の詳細については、「アプリケーションの設定」を参照してください。


[
  {
    "Classification": "spark-defaults",
    "Properties": {
      "spark.sql.catalog.my_catalog":"org.apache.iceberg.spark.SparkCatalog",
      "spark.sql.catalog.my_catalog.type":"glue",
      "spark.sql.catalog.my_catalog.warehouse":"s3://amzn-s3-demo-bucket1/prefix/",
      "spark.sql.defaultCatalog":"my_catalog",
      "spark.sql.extensions":"org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions"
    }
  }
]

Iceberg テーブルへの書き込み

以下の例では、DataFrame を作成し、それを Iceberg データセットとして書き込む方法を示します。この例では、デフォルトの Hadoop ユーザーとして SSH を使用してマスターノードに接続しながら、Spark シェルを使用してデータセットを操作する方法を示しています。

注記

コードサンプルを Spark シェルに貼り付けるには、プロンプトで「:paste」と入力し、例を貼り付けて、[CTRL+D] を押します。

Iceberg テーブルからの読み込み

Spark Iceberg AWS での Glue データカタログの使用

Spark Iceberg から AWS Glue データカタログに接続できます。このセクションでは、接続するためのさまざまなコマンドを示します。

デフォルトのリージョンのデフォルトの AWS Glue カタログに接続する

このサンプルは、 Glue カタログタイプを使用して接続する方法を示しています。カタログ ID を指定しない場合、デフォルトが使用されます。


spark-submit \
    --conf spark.sql.catalog.my_catalog=org.apache.iceberg.spark.SparkCatalog \
    --conf spark.sql.catalog.my_catalog.warehouse=s3://amzn-s3-demo-bucket1/prefix \
    --conf spark.sql.catalog.my_catalog.type=glue \
    --conf spark.sql.defaultCatalog=my_catalog \
    --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

特定のカタログ ID AWS を使用して Glue カタログに接続する

このサンプルは、カタログ ID を使用して接続する方法を示しています。


spark-submit \
    --conf spark.sql.catalog.my_catalog=org.apache.iceberg.spark.SparkCatalog \
    --conf spark.sql.catalog.my_catalog.warehouse=s3://amzn-s3-demo-bucket1/prefix \
    --conf spark.sql.catalog.my_catalog.type=glue \
    --conf spark.sql.catalog.my_catalog.glue.id=AWS Glue catalog ID \
    --conf spark.sql.defaultCatalog=my_catalog \
    --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

このコマンドは、別のアカウントの AWS Glue カタログ、RMS カタログ、またはフェデレーティッドカタログに接続するために使用できます。

Spark Iceberg での Iceberg REST Catalog (IRC) の使用

以下のセクションでは、Iceberg とカタログの統合を設定する方法について詳しく説明します。

Glue データカタログ IRC AWS エンドポイントに接続する

Iceberg REST を使用するためのspark-submitコマンドの例を次に示します。


spark-submit \
    --conf spark.sql.catalog.my_catalog=org.apache.iceberg.spark.SparkCatalog \
    --conf spark.sql.catalog.my_catalog.warehouse=glue catalog ID \
    --conf spark.sql.catalog.my_catalog.type=rest \
    --conf spark.sql.catalog.my_catalog.uri=glue endpoint URI/iceberg \
    --conf spark.sql.catalog.my_catalog.rest.sigv4-enabled=true \
    --conf spark.sql.catalog.my_catalog.rest.signing-name=glue \
    --conf spark.sql.defaultCatalog=my_catalog \
    --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

ランタイムロールが有効なクラスターで使用するには、次の追加の spark 設定が必要です。


"spark.hadoop.fs.s3.credentialsResolverClass": "software.amazon.glue.GlueTableCredentialsResolver",
"spark.hadoop.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog",
"spark.hadoop.glue.id": glue catalog ID
"spark.hadoop.glue.endpoint": "glue endpoint"

各リージョンの AWS Glue エンドポイント URL リストについては、「 AWS Glue エンドポイントとクォータ」を参照してください。

任意の IRC エンドポイントに接続する

IRC エンドポイントを使用するためのspark-submitコマンドの例を次に示します。


spark-submit \
    --conf spark.sql.catalog.my_catalog=org.apache.iceberg.spark.SparkCatalog \
    --conf spark.sql.catalog.my_catalog.warehouse=warehouse name \
    --conf spark.sql.catalog.my_catalog.type=rest \
    --conf spark.sql.catalog.my_catalog.uri=your rest endpoint \
    --conf spark.sql.defaultCatalog=my_catalog \
    --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

Iceberg SparkCatalog と SparkSessionCatalog を使用する場合の設定の違い

Iceberg では、Spark Iceberg カタログを作成する 2 つの方法を利用できます。Spark 設定は、 SparkCatalogまたはのいずれかに設定できますSparkSessionCatalog。

Iceberg SparkCatalog の使用

Spark Iceberg カタログとして SparkCatalog を使用するためのコマンドを次に示します。


spark-shell \
--conf spark.sql.catalog.my_catalog=org.apache.iceberg.spark.SparkCatalog \
--conf spark.sql.catalog.my_catalog.warehouse=s3://amzn-s3-demo-bucket1/prefix \
--conf spark.sql.catalog.my_catalog.type=glue \
--conf spark.sql.defaultCatalog=my_catalog

このアプローチに関する考慮事項：

Iceberg テーブルにはアクセスできますが、他のテーブルにはアクセスできません。
カタログ名を spark_catalog にすることはできません。これは Spark の初期カタログの名前です。常に Hive メタストアに接続します。これは、ユーザーがを使用して上書きしない限り、Spark のデフォルトカタログですspark.sql.defaultCatalog。
spark.sql.defaultCatalog をカタログ名に設定して、デフォルトのカタログにすることができます。

Iceberg SparkSessionCatalog の使用

以下は、Spark Iceberg カタログとして SparkSessionCatalog を使用するためのコマンドを示しています。


spark-shell \
    --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
    --conf spark.sql.catalog.spark_catalog.warehouse=s3://amzn-s3-demo-bucket1/prefix \
    --conf spark.sql.catalog.spark_catalog.type=glue

このアプローチに関する考慮事項：

テーブルが Iceberg テーブルとして見つからない場合、Spark は Hive メタストア内のテーブルであるかどうかを確認しようとします。詳細については、「Hive AWS のカタログとしての Glue データカタログの使用」を参照してください。
カタログ名は spark_catalog である必要があります。

Iceberg Spark 拡張機能の使用

Iceberg には、org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensionsユーザーが Spark 拡張機能設定を通じて設定できる Spark 拡張機能が用意されていますspark.sql.extensions。拡張機能を使用すると、行レベルの DELETE、UPDATE、MERGE などの主要な Iceberg 機能、圧縮、スナップショットの有効期限、分岐とタグ付けなどの Iceberg 固有の Spark データ定義言語ステートメントと手順が有効になります。詳細については、以下を参照してください。

Iceberg Spark 書き込み拡張機能: Spark 書き込み
Iceberg Spark DDL 拡張機能: ALTER TABLE SQL 拡張機能
Iceberg Spark プロシージャ拡張機能: Spark プロシージャ

Spark で Iceberg を使用するための考慮事項

Amazon EMR 6.5.0 は、デフォルトでは Amazon EMR on EKS での Iceberg の実行をサポートしていません。Amazon EMR 6.5.0 カスタムイメージが用意されているため、--jars local:///usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar を spark-submit パラメータとして渡して Amazon EMR on EKS に Iceberg テーブルを作成できます。詳細については、「Amazon EMR on EKS 開発ガイド」の「カスタムイメージを使用して Amazon EMR で Spark ワークロードを送信する」を参照してください。サポートに問い合わせることもできます。Amazon EMR 6.6.0 以降、Iceberg は Amazon EMR on EKS でサポートされます。
Iceberg のカタログとして AWS Glue を使用する場合は、テーブルを作成するデータベースが Glue AWS に存在することを確認してください。などのサービスを使用して AWS Lake Formation いて、カタログをロードできない場合は、コマンドを実行するためのサービスへの適切なアクセス権があることを確認してください。
「」で説明されているように Iceberg SparkSessionCatalog を使用する場合はIceberg SparkCatalog と SparkSessionCatalog を使用する場合の設定の違い、Spark Iceberg AWS Glue データカタログの設定に加えて、「Apache Hive メタストアとして AWS Glue データカタログを設定する」で説明されている設定ステップに従う必要があります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Iceberg クラスターを使用する

Trino での Iceberg クラスターの使用