Menggunakan beberapa sumber data dengan crawler

Ketika AWS Glue crawler memindai Amazon S3 dan mendeteksi beberapa direktori, ia menggunakan heuristik untuk menentukan di mana root untuk tabel berada dalam struktur direktori, dan direktori mana yang merupakan partisi untuk tabel. Dalam beberapa kasus, tempat skema yang terdeteksi dalam dua atau lebih direktori serupa, crawler dapat memperlakukannya sebagai partisi dan bukan tabel terpisah. Salah satu cara untuk membantu crawler menemukan tabel individu adalah dengan menambahkan direktori root setiap tabel sebagai penyimpanan data untuk crawler.

Partisi berikut di Amazon S3 adalah contoh:


s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt

Jika skema untuk table1 dan serupa, dan table2 satu sumber data diatur ke s3://amzn-s3-demo-bucket/folder1/ dalam AWS Glue, crawler dapat membuat tabel tunggal dengan dua kolom partisi: satu kolom partisi yang berisi table1 dantable2, dan kolom partisi kedua yang berisi partition1 melalui. partition5

Agar AWS Glue crawler membuat dua tabel terpisah, atur crawler untuk memiliki dua sumber data, s3://amzn-s3-demo-bucket/folder1/table1/ dans3://amzn-s3-demo-bucket/folder1/table2, seperti yang ditunjukkan dalam prosedur berikut.

Untuk menambahkan penyimpanan data S3 ke crawler yang ada di AWS Glue

Masuk ke AWS Management Console dan buka AWS Glue konsol di https://console.aws.amazon.com/glue/.
Di panel navigasi, pilih Perayap.
Pilih tautan ke crawler Anda, lalu pilih Edit.
Untuk Langkah 2: Pilih sumber data dan pengklasifikasi, pilih Edit.
Untuk sumber data dan katalog, pilih Tambahkan sumber data.
Dalam kotak dialog Tambahkan sumber data, untuk jalur S3, pilih Jelajahi.
Pilih bucket yang ingin Anda gunakan, lalu pilih Pilih.

Sumber data yang Anda tambahkan muncul di daftar Sumber data.
Pilih Berikutnya.
Pada halaman Konfigurasi pengaturan keamanan, buat atau pilih peran IAM untuk crawler, lalu pilih Berikutnya.
Pastikan bahwa jalur S3 berakhir dengan garis miring, lalu pilih Tambahkan sumber data S3.
Pada halaman Set output dan penjadwalan, untuk konfigurasi Output, pilih database target.
Pilih Berikutnya.
Pada halaman Tinjau dan perbarui, tinjau pilihan yang Anda buat. Untuk mengedit langkah, pilih Edit.
Pilih Perbarui.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Gunakan crawler untuk menambahkan tabel

Jadwalkan crawler