Menggunakan Apache Iceberg tabel di AWS Clean Rooms - AWS Clean Rooms

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Apache Iceberg tabel di AWS Clean Rooms

Apache Icebergadalah format tabel sumber terbuka untuk danau data. AWS Clean Rooms dapat menggunakan statistik yang disimpan dalam Apache Iceberg metadata untuk mengoptimalkan rencana kueri dan mengurangi pemindaian file selama pemrosesan kueri ruang bersih. Untuk informasi lebih lanjut, lihat dokumentasi Apache Iceberg.

Pertimbangkan hal berikut saat menggunakan AWS Clean Rooms dengan tabel Iceberg:

  • Tabel dalam AWS Glue Data Catalog satu-satunya — Apache Iceberg tabel harus didefinisikan AWS Glue Data Catalog berdasarkan implementasi katalog lem open source.

  • Format file parket - AWS Clean Rooms hanya mendukung tabel Iceberg dalam format file data Parket.

  • Kompresi GZIP dan Snappy — AWS Clean Rooms mendukung Parket dengan GZIP dan kompresi. Snappy

  • Versi Iceberg - AWS Clean Rooms mendukung menjalankan kueri terhadap versi 1 dan versi 2 tabel Iceberg.

  • Partisi — Anda tidak perlu menambahkan partisi secara manual untuk Apache Iceberg tabel Anda. AWS Glue AWS Clean Rooms mendeteksi partisi baru dalam Apache Iceberg tabel secara otomatis dan tidak diperlukan operasi manual untuk memperbarui partisi dalam definisi tabel. Partisi gunung es muncul sebagai kolom reguler dalam skema AWS Clean Rooms tabel dan tidak secara terpisah sebagai kunci partisi dalam skema tabel yang dikonfigurasi.

  • Batasan

    • Hanya tabel Iceberg baru

      Apache Icebergtabel yang dikonversi dari Apache Parquet tabel tidak didukung.

    • Pertanyaan perjalanan waktu

      AWS Clean Rooms tidak mendukung kueri perjalanan waktu dengan Apache Iceberg tabel.

    • Mesin Athena versi 2

      Icebergtabel yang dibuat dengan mesin Athena versi 2 tidak didukung.

    • Format berkas

      Avrodan format file Optimized Row Columnar (ORC) tidak didukung.

    • Kompresi

      Zstandard(Zstd) kompresi untuk tidak Parquet didukung.

Tipe data yang didukung untuk tabel Iceberg

AWS Clean Rooms dapat menanyakan Iceberg tabel yang berisi tipe data berikut:

  • boolean

  • date

  • decimal

  • double

  • float

  • int

  • list

  • long

  • map

  • string

  • struct

  • timestamp without time zone

Untuk informasi selengkapnya tentang tipe data Gunung Es, lihat Skema untuk Gunung Es di dokumentasi Apache Iceberg.