Práticas recomendadas gerais - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Práticas recomendadas gerais

Independentemente do seu caso de uso, ao usar o Apache Iceberg on AWS, recomendamos que você siga essas melhores práticas gerais.

  • Use a versão 2 do formato Iceberg.

    Athena usa a versão 2 do formato Iceberg por padrão.

    Ao usar o Spark no Amazon EMR AWS Glue ou para criar tabelas Iceberg, especifique a versão do formato conforme descrito na documentação do Iceberg.

  • Use o AWS Glue Data Catalog como seu catálogo de dados.

    Athena usa o. AWS Glue Data Catalog por padrão.

    Ao usar o Spark no Amazon EMR AWS Glue ou para trabalhar com o Iceberg, adicione a seguinte configuração à sua sessão do Spark para usar o catálogo de dados do AWS Glue. Para obter mais informações, consulte a seção Configurações do Spark para Iceberg no AWS Glue, no início deste guia.

    "spark.sql.catalog.<your_catalog_name>.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog"
  • Use o AWS Glue Data Catalog como gerenciador de bloqueio.

    O Athena usa o AWS Glue Data Catalog como gerenciador de bloqueio por padrão para tabelas Iceberg.

    Ao usar o Spark no Amazon EMR AWS Glue ou para trabalhar com o Iceberg, certifique-se de configurar sua sessão do Spark para AWS Glue Data Catalog usá-la como gerenciador de bloqueio. Para obter mais informações, consulte Optimistic Locking na documentação do Iceberg.

  • Use a compressão Zstandard (ZSTD).

    O codec de compactação padrão do Iceberg é o gzip, que pode ser modificado usando a propriedade table. write.<file_type>.compression-codec O Athena já usa o ZSTD como codec de compactação padrão para tabelas Iceberg.

    Em geral, recomendamos o uso do codec de compactação ZSTD porque ele equilibra o GZIP e o Snappy e oferece um bom desempenho de leitura/gravação sem comprometer a taxa de compactação. Além disso, os níveis de compressão podem ser ajustados para atender às suas necessidades. Para obter mais informações, consulte Níveis de compressão ZSTD no Athena na documentação do Athena.

    O Snappy pode fornecer o melhor desempenho geral de leitura e gravação, mas tem uma taxa de compactação menor do que GZIP e ZSTD. Se você priorizar o desempenho, mesmo que isso signifique armazenar grandes volumes de dados no Amazon S3, o Snappy pode ser a melhor escolha.