Prácticas recomendadas generales

Sea cual sea su caso de uso, cuando utilice Apache Iceberg en una AWS aplicación, le recomendamos que siga estas prácticas recomendadas generales.

Utilice la versión 2 del formato Iceberg.

Athena usa el formato Iceberg versión 2 de forma predeterminada.

Cuando utilices Spark en Amazon EMR o AWS Glue para crear tablas de Iceberg, especifica la versión del formato tal y como se describe en la documentación de Iceberg.
Utilícela AWS Glue Data Catalog como catálogo de datos.

Athena usa el de forma AWS Glue Data Catalog predeterminada.

Cuando utilices Spark en Amazon EMR o AWS Glue para trabajar con Iceberg, añade la siguiente configuración a tu sesión de Spark para usar el. AWS Glue Data Catalog Para obtener más información, consulta la sección Configuraciones de Spark para Iceberg que aparece AWS Glue anteriormente en esta guía.
```
"spark.sql.catalog.<your_catalog_name>.type": "glue"
```
Utilízalo AWS Glue Data Catalog como gestor de bloqueos.

Athena usa el AWS Glue Data Catalog como administrador de bloqueos de forma predeterminada para las tablas Iceberg.

Cuando utilices Spark en Amazon EMR o AWS Glue para trabajar con Iceberg, asegúrate de configurar la configuración de tu sesión de Spark para utilizarla AWS Glue Data Catalog como administrador de bloqueos. Para obtener más información, consulta Optimistic Locking en la documentación de Iceberg.
Utilice la compresión Zstandard (ZSTD).

El códec de compresión predeterminado de Iceberg es gzip, que se puede modificar mediante la propiedad table. write.<file_type>.compression-codec Athena ya usa ZSTD como códec de compresión predeterminado para las tablas Iceberg.

En general, recomendamos usar el códec de compresión ZSTD porque logra un equilibrio entre GZIP y Snappy y ofrece un buen rendimiento sin comprometer la relación de compresión. read/write Además, los niveles de compresión se pueden ajustar para adaptarlos a tus necesidades. Para obtener más información, consulte los niveles de compresión ZSTD en Athena en la documentación de Athena.

Puede que Snappy ofrezca el mejor rendimiento general de lectura y escritura, pero tiene una relación de compresión inferior a la de GZIP y ZSTD. Si prioriza el rendimiento, incluso si eso implica almacenar grandes volúmenes de datos en Amazon S3, Snappy podría ser la mejor opción.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Mejores prácticas para optimizar las cargas de trabajo de Iceberg

Optimizar el rendimiento de lectura