Prácticas recomendadas generales - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prácticas recomendadas generales

Sea cual sea su caso de uso, cuando utilice Apache Iceberg en una AWS aplicación, le recomendamos que siga estas prácticas recomendadas generales.

  • Utilice la versión 2 del formato Iceberg.

    Athena usa el formato Iceberg versión 2 de forma predeterminada.

    Cuando utilices Spark en Amazon EMR o AWS Glue para crear tablas de Iceberg, especifica la versión del formato tal y como se describe en la documentación de Iceberg.

  • Utilícela AWS Glue Data Catalog como catálogo de datos.

    Athena usa el AWS Glue Data Catalog por defecto.

    Cuando utilice Spark en Amazon EMR o AWS Glue para trabajar con Iceberg, añada la siguiente configuración a su sesión de Spark para usar el catálogo de datos de AWS Glue. Para obtener más información, consulte la sección Configuraciones de Spark para Iceberg en AWS Glue que aparece anteriormente en esta guía.

    "spark.sql.catalog.<your_catalog_name>.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog"
  • Úselo AWS Glue Data Catalog como administrador de bloqueos.

    Athena usa el AWS Glue Data Catalog como administrador de bloqueos de forma predeterminada para las tablas Iceberg.

    Cuando utilices Spark en Amazon EMR o AWS Glue para trabajar con Iceberg, asegúrate de configurar la configuración de tu sesión de Spark para utilizarla AWS Glue Data Catalog como administrador de bloqueos. Para obtener más información, consulta Optimistic Locking en la documentación de Iceberg.

  • Utilice la compresión Zstandard (ZSTD).

    El códec de compresión predeterminado de Iceberg es gzip, que se puede modificar mediante la propiedad table. write.<file_type>.compression-codec Athena ya usa ZSTD como códec de compresión predeterminado para las tablas Iceberg.

    En general, recomendamos usar el códec de compresión ZSTD porque logra un equilibrio entre GZIP y Snappy y ofrece un buen rendimiento de lectura/escritura sin comprometer la relación de compresión. Además, los niveles de compresión se pueden ajustar para adaptarlos a sus necesidades. Para obtener más información, consulte los niveles de compresión ZSTD en Athena en la documentación de Athena.

    Puede que Snappy ofrezca el mejor rendimiento general de lectura y escritura, pero tiene una relación de compresión inferior a la de GZIP y ZSTD. Si prioriza el rendimiento, incluso si eso implica almacenar grandes volúmenes de datos en Amazon S3, Snappy podría ser la mejor opción.