Nicht-Hive-Tabellenformaten in Amazon Athena für Apache Spark verwenden - Amazon Athena

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Nicht-Hive-Tabellenformaten in Amazon Athena für Apache Spark verwenden

Wenn Sie in Athena für Spark mit Sessions und Notebooks arbeiten, können Sie neben Apache-Hive-Tabellen auch Linux-Foundation-Delta-Lake-, Apache-Hudi- und Apache-Iceberg-Tabellen verwenden.

Überlegungen und Einschränkungen

Wenn Sie andere Tabellenformate als Apache Hive mit Athena für Spark verwenden, sollten Sie die folgenden Punkte berücksichtigen:

  • Zusätzlich zu Apache Hive wird nur ein Tabellenformat pro Notebook unterstützt. Um mehrere Tabellenformate in Athena für Spark zu verwenden, erstellen Sie für jedes Tabellenformat ein separates Notizbuch. Informationen zum Erstellen von Notebooks in Athena für Spark finden Sie unter Erstellen Ihres eigenen Notebooks.

  • Die Tabellenformate Delta Lake, Hudi und Iceberg wurden auf Athena for Spark getestet, indem sie AWS Glue als Metastore verwendet wurden. Möglicherweise können Sie andere Metastores verwenden, aber eine solche Verwendung wird derzeit nicht unterstützt.

  • Um die zusätzlichen Tabellenformate zu verwenden, überschreiben Sie die spark_catalog-Standardeigenschaft, wie in der Athena-Konsole und in dieser Dokumentation angegeben. Diese Nicht-Hive-Kataloge können zusätzlich zu ihren eigenen Tabellenformaten Hive-Tabellen lesen.

Tabellenversionen

Die folgende Tabelle zeigt die unterstützten Nicht-Hive-Tabellenversionen in Amazon Athena für Apache Spark.

Tabellenformat Unterstützte Version
Apache Iceberg 1.2.1
Apache Hudi 0.13
Linux Foundation Delta Lake 2.0.2

In Athena für Spark werden diese .jar-Dateien im Tabellenformat und ihre Abhängigkeiten in den Klassenpfad für Spark-Treiber und -Ausführern geladen.

Einen AWS Big-Data-Blogbeitrag, der zeigt, wie Sie mit den Tabellenformaten Iceberg, Hudi und Delta Lake mithilfe von Spark SQL in Amazon Athena-Notizbüchern arbeiten, finden Sie unter Verwenden von Amazon Athena mit Spark SQL für Ihre Open-Source-Transaktionstabellenformate.