Menyesuaikan perilaku crawler - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyesuaikan perilaku crawler

Saat Anda mengonfigurasi Perayap AWS Glue, Anda memiliki beberapa opsi untuk menentukan perilaku crawler Anda.

  • Crawl inkremental - Anda dapat mengonfigurasi crawler untuk menjalankan crawl inkremental untuk menambahkan hanya partisi baru ke skema tabel.

  • Indeks partisi — Crawler membuat indeks partisi untuk target Amazon S3 dan Delta Lake secara default untuk menyediakan pencarian yang efisien untuk partisi tertentu.

  • Mempercepat waktu crawl dengan menggunakan peristiwa Amazon S3 — Anda dapat mengonfigurasi crawler untuk menggunakan peristiwa Amazon S3 untuk mengidentifikasi perubahan di antara dua crawl dengan mencantumkan semua file dari subfolder yang memicu peristiwa alih-alih mencantumkan target Amazon S3 atau Katalog Data lengkap.

  • Menangani perubahan skema — Anda dapat mencegah crawler membuat perubahan skema apa pun pada skema yang ada. Anda dapat menggunakan AWS Management Console atau AWS Glue APIuntuk mengonfigurasi cara crawler Anda memproses jenis perubahan tertentu.

  • Skema tunggal untuk beberapa jalur Amazon S3 — Anda dapat mengonfigurasi crawler untuk membuat skema tunggal untuk setiap jalur S3 jika data kompatibel.

  • Lokasi tabel dan tingkat partisi — Opsi crawler tingkat tabel memberi Anda fleksibilitas untuk memberi tahu crawler di mana tabel berada, dan bagaimana Anda ingin partisi dibuat.

  • Ambang batas tabel - Anda dapat menentukan jumlah maksimum tabel yang diizinkan untuk dibuat oleh crawler dengan menentukan ambang batas tabel.

  • AWS Lake Formation kredensyal — Anda dapat mengonfigurasi crawler untuk menggunakan kredensyal Lake Formation untuk mengakses penyimpanan data Amazon S3 atau tabel Katalog Data dengan lokasi Amazon S3 yang mendasarinya dalam hal yang sama atau lainnya. Akun AWS Akun AWS

Untuk informasi lebih lanjut tentang menggunakan AWS Glue konsol untuk menambahkan crawler, lihatMengkonfigurasi crawler.