Mengoptimalkan kinerja kueri untuk tabel Iceberg - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengoptimalkan kinerja kueri untuk tabel Iceberg

Apache Iceberg adalah format tabel terbuka berkinerja tinggi untuk kumpulan data analitik yang sangat besar. AWS Glue mendukung penghitungan dan pembaruan jumlah nilai yang berbeda (NDV) untuk setiap kolom dalam tabel Iceberg. Statistik ini dapat memfasilitasi optimasi kueri, manajemen data, dan efisiensi kinerja yang lebih baik untuk insinyur data dan ilmuwan yang bekerja dengan kumpulan data skala besar.

AWS Glue memperkirakan jumlah nilai yang berbeda di setiap kolom tabel Iceberg dan menyimpannya dalam file Puffin di Amazon S3 yang terkait dengan snapshot tabel Iceberg. Puffin adalah format file Iceberg yang dirancang untuk menyimpan metadata seperti indeks, statistik, dan sketsa. Menyimpan sketsa dalam file Puffin yang terkait dengan snapshot memastikan konsistensi transaksional dan kesegaran statistik NDV.

Anda dapat mengonfigurasi untuk menjalankan tugas pembuatan statistik kolom menggunakan AWS Glue konsol atau AWS CLI. Saat Anda memulai proses, AWS Glue mulai pekerjaan Spark di latar belakang dan perbarui metadata AWS Glue tabel di Katalog Data. Anda dapat melihat statistik kolom menggunakan AWS Glue konsol AWS CLI atau atau dengan memanggil operasi GetColumnStatisticsForTableAPI.

catatan

Jika Anda menggunakan AWS Lake Formation izin untuk mengontrol akses ke tabel, peran yang diasumsikan oleh tugas statistik kolom memerlukan akses tabel penuh untuk menghasilkan statistik.

Lihat juga