Praktik terbaik umum - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Praktik terbaik umum

Terlepas dari kasus penggunaan Anda, saat Anda menggunakan Apache Iceberg AWS, kami sarankan Anda mengikuti praktik terbaik umum ini.

  • Gunakan format Iceberg versi 2.

    Athena menggunakan format Iceberg versi 2 secara default.

    Bila Anda menggunakan Spark di Amazon EMR AWS Glue atau untuk membuat tabel Iceberg, tentukan versi format seperti yang dijelaskan dalam dokumentasi Iceberg.

  • Gunakan AWS Glue Data Catalog sebagai katalog data Anda.

    Athena menggunakan secara default AWS Glue Data Catalog .

    Saat Anda menggunakan Spark di Amazon EMR AWS Glue atau untuk bekerja dengan Iceberg, tambahkan konfigurasi berikut ke sesi Spark Anda untuk menggunakan AWS Glue Data Catalog. Untuk informasi selengkapnya, lihat bagian Konfigurasi percikan untuk Gunung Es di AWS Glue sebelumnya dalam panduan ini.

    "spark.sql.catalog.<your_catalog_name>.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog"
  • Gunakan AWS Glue Data Catalog sebagai manajer kunci.

    Athena menggunakan AWS Glue Data Catalog as lock manager secara default untuk tabel Iceberg.

    Saat Anda menggunakan Spark di Amazon EMR AWS Glue atau untuk bekerja dengan Iceberg, pastikan untuk mengonfigurasi konfigurasi sesi Spark Anda untuk menggunakan pengelola kunci as. AWS Glue Data Catalog Untuk informasi lebih lanjut, lihat Optimistic Locking dalam dokumentasi Iceberg.

  • Gunakan kompresi Zstandard (ZSTD).

    Codec kompresi default dari Iceberg adalah gzip, yang dapat dimodifikasi dengan menggunakan properti tabel. write.<file_type>.compression-codec Athena sudah menggunakan ZSTD sebagai codec kompresi default untuk tabel Iceberg.

    Secara umum, kami merekomendasikan penggunaan codec kompresi ZSTD karena mencapai keseimbangan antara GZIP dan Snappy, dan menawarkan kinerja baca/tulis yang baik tanpa mengorbankan rasio kompresi. Selain itu, tingkat kompresi dapat disesuaikan dengan kebutuhan Anda. Untuk informasi lebih lanjut, lihat tingkat kompresi ZSTD di Athena dalam dokumentasi Athena.

    Snappy mungkin memberikan kinerja baca dan tulis keseluruhan terbaik tetapi memiliki rasio kompresi yang lebih rendah daripada GZIP dan ZSTD. Jika Anda memprioritaskan kinerja—bahkan jika itu berarti menyimpan volume data yang lebih besar di Amazon S3—Snappy mungkin merupakan pilihan yang optimal.