Amazon Athena for Apache Spark で Hive 以外のテーブル形式を使用する - Amazon Athena

Amazon Athena for Apache Spark で Hive 以外のテーブル形式を使用する

Athena for Spark でセッションやノートブックを使用する場合は、Apache Hive テーブルだけでなく Linux Foundation Delta Lake、Apache Hudi、Apache Iceberg の各テーブルも使用できます。

考慮事項と制約事項

Apache Hive 以外のテーブル形式を Athena for Spark で使用する場合は、次の点を考慮してください。

  • 各ノートブックでサポートされるテーブル形式は、Apache Hive 以外は 1 つだけです。Athena for Spark で複数のテーブル形式を使用する場合は、各テーブル形式に対して個別のノートブックを作成してください。Athena for Spark でノートブックを作成するための情報については、「独自のノートブックの作成」を参照してください。

  • Delta Lake、Hudi、および Iceberg テーブル形式は、AWS Glue をメタストアとして使用した Athena for Spark でテスト検証済みです。他のメタストアも使用できる可能性はありますが、その使用法は現在サポートされていません。

  • その他のテーブル形式を使用するには、Athena コンソールとこのドキュメントの説明にあるように、デフォルトの spark_catalog プロパティを上書きしてください。これらの Hive 以外のカタログは、自身のテーブル形式に加えて Hive テーブルも読み取れます。

テーブルのバージョン

次の表は、Amazon Athena for Apache Spark でサポートされている Hive 以外のテーブルバージョンを示しています。

テーブル形式 サポートされる のバージョン
Apache Iceberg 1.2.1
Apache Hudi 0.13
Linux Foundation Delta Lake 2.0.2

Athena for Spark では、これらのテーブル形式 .jar ファイルとその依存関係は Spark ドライバーとエグゼキューターのクラスパスに読み込まれます。

Amazon Athena ノートブックで Spark SQL を使用して Iceberg、Hudi、および Delta Lake テーブル形式を操作する方法については AWS Big Data Blog 記事「Use Amazon Athena with Spark SQL for your open-source transactional table formats」を参照してください。