Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pertimbangan dan batasan untuk pekerjaan pemeliharaan
Amazon S3 menawarkan operasi pemeliharaan untuk meningkatkan kinerja tabel S3 atau bucket meja Anda. Opsi ini adalah pemadatan file, manajemen snapshot, dan penghapusan file yang tidak direferensikan. Berikut ini adalah batasan dan pertimbangan untuk opsi manajemen ini.
Topik
Pertimbangan untuk pemadatan
Pertimbangan berikut berlaku untuk pemadatan. Untuk informasi lebih lanjut tentang pemadatan, lihatPemeliharaan untuk tabel.
-
Pemadatan didukung padaApache Parquet,Avro, dan jenis ORC file.
-
Compaction menulis file baru dalam Apache Parquet format secara default. Untuk memadatkan file ke dalam Avro atau ORC format sebagai gantinya, atur properti
write.format.default
tabel keavro
atauorc
. -
Pemadatan tidak mendukung tipe data:
Fixed
. -
Pemadatan tidak mendukung jenis kompresi:
brotli
,lz4
. Pemadatan terjadi pada jadwal otomatis. Jika Anda ingin mencegah biaya yang terkait dengan pemadatan, Anda dapat menonaktifkannya secara manual untuk tabel menggunakan operasi PutTableMaintenanceConfigurationAPI.
catatan
Apache Icebergmenggunakan model konkurensi optimis bersama dengan deteksi konflik untuk menengahi transaksi tulis. Dengan konkurensi optimis, transaksi pengguna dan pemadatan dapat menimbulkan konflik yang menyebabkan transaksi gagal. Jika konflik terjadi, pekerjaan pemadatan akan mencoba lagi pada kegagalan. Disarankan bahwa pipeline Anda juga menggunakan logika coba ulang untuk mengatasi transaksi yang gagal dari operasi yang bertentangan.
Pertimbangan untuk manajemen snapshot
Pertimbangan berikut berlaku untuk manajemen snapshot. Untuk informasi selengkapnya tentang manajemen snapshot, lihatPemeliharaan untuk tabel.
-
Snapshot akan dipertahankan hanya jika kedua kriteria terpenuhi: jumlah minimum snapshot yang harus disimpan dan periode retensi yang ditentukan.
-
Manajemen snapshot menghapus metadata snapshot kedaluwarsa dari Apache Iceberg, mencegah kueri perjalanan waktu untuk snapshot kedaluwarsa dan secara opsional menghapus file data terkait.
-
Manajemen snapshot tidak mendukung nilai retensi yang Anda konfigurasikan sebagai properti tabel Iceberg dalam
metadata.json
file atau melalui perintahALTER TABLE SET TBLPROPERTIES
SQL, termasuk retensi berbasis cabang atau tag. Manajemen snapshot dinonaktifkan saat Anda mengonfigurasi kebijakan penyimpanan berbasis cabang atau tag, atau mengonfigurasi kebijakan penyimpanan padametadata.json
file yang lebih panjang dari nilai yang dikonfigurasi melalui API.PutTableMaintenanceConfiguration
Dalam kasus ini S3 tidak akan kedaluwarsa atau menghapus snapshot dan Anda perlu menghapus snapshot secara manual atau menghapus properti dari tabel Iceberg Anda untuk menghindari biaya penyimpanan.
Pertimbangan untuk penghapusan file yang tidak direferensikan
Pertimbangan berikut berlaku untuk penghapusan file yang tidak direferensikan. Untuk informasi selengkapnya tentang penghapusan file yang tidak direferensikan, lihat. Pemeliharaan untuk ember meja
-
Penghapusan file yang tidak direferensikan menghapus data dan file metadata yang tidak lagi direferensikan oleh metadata Iceberg jika waktu pembuatannya sebelum periode retensi.
Batas operasi pemeliharaan tabel dan ember meja S3 dan terkait APIs
Operasi pemeliharaan | Properti | Dapat dikonfigurasi pada tingkat ember meja? | Dapat dikonfigurasi di tingkat tabel? | Nilai default | Nilai minimum | Rutin Iceberg pemeliharaan terkait | Mengontrol API Tabel S3 |
---|---|---|---|---|---|---|---|
Pemadatan | targetFileSizeMB |
Tidak | Ya | 512MB | 64MB |
|
PutTableMaintenanceConfiguration |
Manajemen snapshot | minimumSnapshots |
Tidak | Ya | 1 | 1 | ExpireSnapshots retainLast |
PutTableMaintenanceConfiguration |
Manajemen snapshot | maximumSnapshotAge |
Tidak | Ya | 120 jam | 1 jam | ExpireSnapshots expireOlderThan |
PutTableMaintenanceConfiguration |
Penghapusan file yang tidak direferensikan | unreferencedDays |
Ya | Tidak | 3 hari | 1 hari | deleteOrphanFiles |
PutTableBucketMaintenanceConfiguration |
Penghapusan file yang tidak direferensikan | nonCurrentDays |
Ya | Tidak | 10 hari | 1 hari | N/A | PutTableBucketMaintenanceConfiguration |
catatan
Tabel S3 menerapkan row-group-default ukuran parket 128 MB.