Perayapan tambahan untuk menambahkan partisi baru di AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Perayapan tambahan untuk menambahkan partisi baru di AWS Glue

Crawler menyediakan opsi untuk menambahkan partisi baru yang menghasilkan crawl yang lebih cepat untuk kumpulan data tambahan dengan skema tabel stabil. Kasus penggunaan yang umum adalah untuk crawler terjadwal, di mana selama setiap perayapan, partisi baru ditambahkan. Ketika opsi ini diaktifkan, pertama-tama akan menjalankan crawl lengkap pada kumpulan data target untuk memungkinkan crawler merekam skema awal dan struktur partisi. Selama rawl ulang, partisi baru akan ditambahkan ke tabel yang ada hanya jika skema kompatibel. Tidak ada perubahan skema yang dibuat dan tidak ada tabel baru yang akan ditambahkan ke Katalog Data setelah crawl pertama dijalankan.

Anda dapat menggunakan opsi ini saat mengatur sumber data Amazon S3. Anda dapat mengatur RecrawlPolicy with RecrawlBehavior sebagai “Crawl_New_Folders” di CreateCrawler API atau Perayap berikutnya berjalan sebagai Crawl sub-folder baru hanya di konsol.

Melanjutkan dengan contoh di Bagaimana crawler menentukan kapan harus membuat partisi?, diagram berikut menunjukkan bahwa file untuk bulan Maret telah ditambahkan.

Diagram berikut menunjukkan bahwa file untuk bulan Maret telah ditambahkan.

Jika Anda menetapkan RecrawlBehavior sebagai opsi “Crawl_New_Folders”, hanya folder baru, yang dirayapi. month=Mar

Catatan dan batasan

Bila opsi ini diaktifkan, Anda tidak dapat mengubah penyimpanan data target Amazon S3 saat mengedit crawler. Opsi ini memengaruhi pengaturan konfigurasi crawler tertentu. Bila diaktifkan, tindakan ini akan memaksa perilaku pembaruan dan menghapus perilaku crawler ke LOG. Ini artinya bahwa:

  • Jika menemukan objek di mana skema tidak kompatibel, crawler tidak akan menambahkan objek dalam Katalog Data, dan menambahkan detail ini sebagai log di Log. CloudWatch

  • Ini tidak akan memperbarui objek yang dihapus di Katalog Data.

Lihat informasi yang lebih lengkap di Mengatur opsi konfigurasi crawler.