Mengoptimalkan tabel Iceberg - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengoptimalkan tabel Iceberg

Danau data Amazon S3 menggunakan format tabel terbuka seperti Apache Iceberg menyimpan data sebagai objek Amazon S3. Memiliki ribuan objek Amazon S3 kecil dalam tabel data lake meningkatkan overhead metadata pada tabel Iceberg dan memengaruhi kinerja baca. Untuk kinerja pembacaan yang lebih baik oleh layanan AWS analitik seperti Amazon Athena dan Amazon EMR, dan pekerjaan AWS Glue ETL, AWS Glue Data Catalog menyediakan pemadatan terkelola (proses yang memadatkan objek Amazon S3 kecil menjadi objek yang lebih besar) untuk tabel Iceberg di Katalog Data. Anda dapat menggunakan konsol, AWS Glue konsol AWS CLI, atau AWS API Lake Formation untuk mengaktifkan atau menonaktifkan pemadatan untuk tabel Iceberg individual yang ada di Katalog Data.

Pengoptimal tabel terus memantau partisi tabel dan memulai proses pemadatan ketika ambang batas terlampaui untuk jumlah file dan ukuran file. Tabel Iceberg memenuhi syarat untuk pemadatan jika ukuran file ditentukan dalam penulisan. target-file-size-bytes properti berada dalam kisaran 128MB hingga 512MB. Dalam Katalog Data, proses pemadatan dimulai jika tabel memiliki lebih dari lima file, masing-masing lebih kecil dari 75% penulisan. target-file-size-bytes properti.

Misalnya, Anda memiliki tabel dengan ambang ukuran file yang disetel ke 512MB dalam penulisan. target-file-size-bytes properti (dalam kisaran 128MB hingga 512MB yang ditentukan), dan tabel berisi 10 file. Jika 6 dari 10 file masing-masing kurang dari 384MB (.75* 512), maka Katalog Data memicu pemadatan.

Katalog Data melakukan pemadatan tanpa mengganggu kueri bersamaan. Data Catalog mendukung pemadatan data hanya untuk tabel dalam format Parket.

Untuk tipe data yang didukung, format kompresi, dan batasan, lihatFormat dan batasan yang didukung untuk pemadatan data terkelola .