Pertimbangan dan batasan Menyiapkan akun Anda untuk pemberitahuan acara Amazon S3

Mempercepat crawl menggunakan notifikasi acara Amazon S3

Alih-alih mencantumkan objek dari target Amazon S3 atau Katalog Data, Anda dapat mengonfigurasi crawler untuk menggunakan peristiwa Amazon S3 untuk menemukan perubahan apa pun. Fitur ini meningkatkan waktu rawl ulang dengan menggunakan peristiwa Amazon S3 untuk mengidentifikasi perubahan antara dua crawl dengan mencantumkan semua file dari subfolder yang memicu peristiwa alih-alih mencantumkan target Amazon S3 atau Katalog Data lengkap.

Crawl pertama mencantumkan semua objek Amazon S3 dari target. Setelah crawl pertama berhasil, Anda dapat memilih untuk meng-rawl ulang secara manual atau pada jadwal yang ditetapkan. Crawler hanya akan mencantumkan objek dari peristiwa tersebut alih-alih mencantumkan semua objek.

Jika targetnya adalah tabel Katalog Data, crawler memperbarui tabel yang ada di Katalog Data dengan perubahan (misalnya, partisi tambahan dalam tabel).

Keuntungan pindah ke crawler berbasis acara Amazon S3 adalah:

Recrawl lebih cepat karena daftar semua objek dari target tidak diperlukan, alih-alih daftar folder tertentu dilakukan di mana objek ditambahkan atau dihapus.
Pengurangan biaya crawl keseluruhan karena daftar folder tertentu dilakukan di mana objek ditambahkan atau dihapus.

Crawl peristiwa Amazon S3 berjalan dengan menggunakan peristiwa Amazon S3 dari antrean SQS berdasarkan jadwal crawler. Tidak akan ada biaya jika tidak ada acara dalam antrian. Acara Amazon S3 dapat dikonfigurasi untuk langsung masuk ke antrian SQS atau dalam kasus di mana beberapa konsumen memerlukan acara yang sama, kombinasi SNS dan SQS. Untuk informasi selengkapnya, lihat Menyiapkan akun Anda untuk pemberitahuan acara Amazon S3.

Setelah membuat dan mengonfigurasi crawler dalam mode peristiwa, crawl pertama berjalan dalam mode daftar dengan melakukan daftar lengkap target Amazon S3 atau Katalog Data. Log berikut mengonfirmasi pengoperasian crawl dengan menggunakan peristiwa Amazon S3 setelah perayapan pertama yang berhasil: “Perayapan berjalan dengan menggunakan peristiwa Amazon S3.”

Setelah membuat crawl peristiwa Amazon S3 dan memperbarui properti crawler yang dapat memengaruhi perayapan, crawl beroperasi dalam mode daftar dan log berikut ditambahkan: “Perayapan tidak berjalan dalam mode peristiwa S3”.

catatan

Jumlah maksimum pesan yang akan dikonsumsi adalah 100.000 pesan per crawl.

Pertimbangan dan batasan

Pertimbangan dan batasan berikut berlaku saat Anda mengonfigurasi crawler untuk menggunakan notifikasi peristiwa Amazon S3 untuk menemukan perubahan apa pun.

Perilaku penting dengan partisi yang dihapus

Saat menggunakan crawler peristiwa Amazon S3 dengan tabel Katalog Data:
- Jika Anda menghapus partisi menggunakan panggilan DeletePartition API, Anda juga harus menghapus semua objek S3 di bawah partisi itu, dan memilih Semua peristiwa penghapusan objek saat Anda mengonfigurasi pemberitahuan acara S3 Anda. Jika peristiwa penghapusan tidak dikonfigurasi, crawler membuat ulang partisi yang dihapus selama proses berikutnya.
Hanya satu target yang didukung oleh crawler, baik untuk target Amazon S3 atau Katalog Data.
SQS pada VPC pribadi tidak didukung.
Pengambilan sampel Amazon S3 tidak didukung.
Target crawler harus berupa folder untuk target Amazon S3, atau satu atau AWS Glue beberapa tabel Katalog Data untuk target Katalog Data.
Wildcard jalur 'semuanya' tidak didukung: s3: //%
Untuk target Katalog Data, semua tabel katalog harus mengarah ke bucket Amazon S3 yang sama untuk mode acara Amazon S3.
Untuk target Katalog Data, tabel katalog tidak boleh mengarah ke lokasi Amazon S3 dalam format Delta Lake (berisi folder _symlink, atau memeriksa tabel katalog). InputFormat

Topik

Menyiapkan akun Anda untuk pemberitahuan acara Amazon S3

Selesaikan tugas pengaturan berikut. Perhatikan nilai dalam tanda kurung merujuk pengaturan yang dapat dikonfigurasi dari skrip.

Anda perlu menyiapkan notifikasi acara untuk bucket Amazon S3 Anda.

Untuk informasi selengkapnya, lihat pemberitahuan acara Amazon S3.
Untuk menggunakan crawler berbasis peristiwa Amazon S3, Anda harus mengaktifkan pemberitahuan peristiwa di bucket Amazon S3 dengan peristiwa yang difilter dari awalan yang sama dengan target S3 dan penyimpanan di SQS. Anda dapat mengatur SQS dan pemberitahuan acara melalui konsol dengan mengikuti langkah-langkah di Walkthrough: Mengonfigurasi bucket untuk notifikasi.

Tambahkan kebijakan SQS berikut ke peran yang digunakan oleh crawler.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Penyiapan diperlukan saat crawler dan lokasi Amazon S3 terdaftar berada di akun yang berbeda (crawling lintas akun)

Menyiapkan crawler untuk notifikasi peristiwa Amazon S3 untuk target Amazon S3