Uso de formatos de tabla que no son de Hive en Amazon Athena para Apache Spark - Amazon Athena

Uso de formatos de tabla que no son de Hive en Amazon Athena para Apache Spark

Cuando trabaja con sesiones y cuadernos en Athena para Spark, puede usar las tablas de Linux Foundation Delta Lake, Apache Hudi y Apache Iceberg, además de las tablas de Apache Hive.

Consideraciones y limitaciones

Cuando utilice formatos de tabla que no sean de Apache Hive con Athena para Spark, tenga en cuenta los siguientes puntos:

  • Además de Apache Hive, solo se admite un formato de tabla por cuaderno. Si desea usar varios formatos de tabla en Athena para Spark, cree un cuaderno independiente para cada formato de tabla. Para obtener información sobre la creación de cuadernos en Athena para Spark, consulte Creación de un cuaderno propio.

  • Los formatos de tabla de Delta Lake, Hudi e Iceberg se probaron en Athena para Spark utilizando AWS Glue como almacén de metadatos. Es posible que pueda usar otros almacenes de metadatos, pero actualmente no se admite ese uso.

  • Para usar los formatos de tabla adicionales, anule la propiedad spark_catalogpredeterminada, tal y como se indica en la consola de Athena y en esta documentación. Estos catálogos que no son de Hive pueden leer tablas de Hive, además de sus propios formatos de tabla.

Versiones de tablas

En la siguiente tabla, se muestran las versiones de tablas que no son de Hive y que se admiten en Amazon Athena para Apache Spark.

Formato de tabla Versión compatible
Apache Iceberg 1.2.1
Apache Hudi 0,13
Linux Foundation Delta Lake 2.0.2

En Athena para Spark, estos archivos .jar con formato de tabla y sus dependencias se cargan en la ruta de clases de los controladores y ejecutores de Spark.

Para consultar una AWSpublicación en el blog de Big Data que indica cómo trabajar con los formatos de tabla Iceberg, Hudi y Delta Lake mediante Spark SQL en blocs de notas de Amazon Athena, consulte Utilizar Amazon Athena con Spark SQL para los formatos de tabla transaccionales de código abierto.