Mengaktifkan penghapusan file yatim - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengaktifkan penghapusan file yatim

Anda dapat menggunakan AWS Glue konsol, AWS CLI, atau AWS API untuk mengaktifkan penghapusan file yatim piatu untuk tabel Apache Iceberg Anda di Katalog Data. Untuk tabel baru, Anda dapat memilih Apache Iceberg sebagai format tabel dan mengaktifkan pengoptimal penghapusan file yatim ketika Anda membuat tabel. Retensi snapshot dinonaktifkan secara default untuk tabel baru.

Console
Untuk mengaktifkan penghapusan file yatim
  1. Buka AWS Glue konsol di https://console.aws.amazon.com/glue/dan masuk sebagai administrator data lake, pembuat tabel, atau pengguna yang telah diberikan lakeformation:GetDataAccess izin glue:UpdateTable dan di atas tabel.

  2. Di panel navigasi, pada Katalog Data, pilih Tabel.

  3. Pada halaman Tabel, pilih tabel Iceberg di mana Anda ingin mengaktifkan penghapusan file yatim piatu.

    Pilih tab Pengoptimalan tabel di bagian bawah halaman, dan pilih Aktifkan, penghapusan file Orphan dari Tindakan.

    Anda juga dapat memilih Aktifkan di bawah Optimasi dari menu Tindakan yang terletak di sudut kanan atas halaman..

  4. Pada halaman Aktifkan pengoptimalan, pilih Penghapusan file yatim di bawah Opsi pengoptimalan.

  5. Jika Anda memilih untuk menggunakan pengaturan Default, semua file yatim piatu akan dihapus setelah 3 hari. Jika Anda ingin menyimpan file yatim piatu selama beberapa hari tertentu, pilih Sesuaikan pengaturan.

  6. Selanjutnya, pilih IAM peran dengan izin yang diperlukan untuk menghapus file yatim piatu.

  7. Jika Anda memiliki konfigurasi kebijakan keamanan di mana pengoptimal tabel Iceberg perlu mengakses bucket Amazon S3 dari Virtual Private Cloud (VPC) tertentu, buat sambungan AWS Glue jaringan, atau gunakan yang sudah ada.

    Jika Anda belum menyiapkan AWS Glue VPC Koneksi, buat yang baru dengan mengikuti langkah-langkah di bagian Membuat koneksi untuk konektor menggunakan AWS Glue konsol atau AWS CLI/SDK.

  8. Jika Anda memilih Sesuaikan pengaturan, masukkan jumlah hari untuk menyimpan file sebelum dihapus di bawah konfigurasi penghapusan file Orphan.

  9. Pilih Aktifkan pengoptimalan.

AWS CLI

Untuk mengaktifkan penghapusan file yatim piatu untuk tabel Iceberg di AWS Glue, Anda perlu membuat pengoptimal tabel tipe orphan_file_deletion dan mengatur bidang ke true. enabled Untuk membuat pengoptimal penghapusan file yatim piatu untuk tabel Iceberg menggunakan AWS CLI, Anda dapat menggunakan perintah berikut:

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true, "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3, "location":'S3 location'}}}'\ --type orphan_file_deletion

Perintah ini membuat pengoptimal penghapusan file yatim piatu untuk tabel Iceberg yang ditentukan. Parameter kuncinya adalah:

  • roleArn — IAM peran dengan izin untuk mengakses bucket S3 dan sumber daya Glue. ARN

  • diaktifkan — Atur ke true untuk mengaktifkan pengoptimal.

  • orphanFileRetentionPeriodInDays — Jumlah hari untuk menyimpan file yatim piatu sebelum menghapusnya (minimal 1 hari).

  • type - Setel ke orphan_file_deletion untuk membuat pengoptimal penghapusan file yatim piatu.

Setelah membuat pengoptimal tabel, itu akan menjalankan penghapusan file yatim secara berkala (sekali per hari jika dibiarkan diaktifkan). Anda dapat memeriksa proses menggunakan list-table-optimizer-runsAPI. Pekerjaan penghapusan file yatim piatu akan mengidentifikasi dan menghapus file yang tidak dilacak dalam metadata Iceberg untuk tabel.

API

Panggil CreateTableOptimizeroperasi untuk membuat pengoptimal penghapusan file yatim piatu untuk tabel tertentu.