Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan beberapa sumber data dengan crawler
Ketika AWS Glue crawler memindai Amazon S3 dan mendeteksi beberapa direktori, ia menggunakan heuristik untuk menentukan di mana root untuk tabel berada dalam struktur direktori, dan direktori mana yang merupakan partisi untuk tabel. Dalam beberapa kasus, tempat skema yang terdeteksi dalam dua atau lebih direktori serupa, crawler dapat memperlakukannya sebagai partisi dan bukan tabel terpisah. Salah satu cara untuk membantu crawler menemukan tabel individu adalah dengan menambahkan direktori root setiap tabel sebagai penyimpanan data untuk crawler.
Partisi berikut di Amazon S3 adalah contoh:
s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt
Jika skema untuk table1
dan serupa, dan table2
satu sumber data diatur ke s3://amzn-s3-demo-bucket/folder1/
dalam AWS Glue, crawler dapat membuat tabel tunggal dengan dua kolom partisi: satu kolom partisi yang berisi table1
dantable2
, dan kolom partisi kedua yang berisi partition1
melalui. partition5
Agar AWS Glue crawler membuat dua tabel terpisah, atur crawler untuk memiliki dua sumber data, s3://amzn-s3-demo-bucket/folder1/table1/
dans3://amzn-s3-demo-bucket/folder1/table2
, seperti yang ditunjukkan dalam prosedur berikut.
Untuk menambahkan penyimpanan data S3 ke crawler yang ada di AWS Glue
Masuk ke AWS Management Console dan buka AWS Glue konsol di https://console.aws.amazon.com/glue/
. -
Di panel navigasi, pilih Perayap.
-
Pilih tautan ke crawler Anda, lalu pilih Edit.
-
Untuk Langkah 2: Pilih sumber data dan pengklasifikasi, pilih Edit.
-
Untuk Sumber data, pilih Tambahkan sumber data.
-
Dalam kotak dialog Tambahkan sumber data, untuk jalur S3, pilih Jelajahi.
-
Pilih bucket yang ingin Anda gunakan, lalu pilih Pilih.
Sumber data yang Anda tambahkan muncul di daftar Sumber data.
-
Pilih Berikutnya.
-
Pada halaman Konfigurasi pengaturan keamanan, buat atau pilih IAM peran untuk crawler, lalu pilih Berikutnya.
-
Pastikan bahwa jalur S3 berakhir dengan garis miring, lalu pilih Tambahkan sumber data S3.
-
Pada halaman Set output dan penjadwalan, untuk konfigurasi Output, pilih database target.
-
Pilih Berikutnya.
-
Pada halaman Tinjau dan perbarui, tinjau pilihan yang Anda buat. Untuk mengedit langkah, pilih Edit.
-
Pilih Perbarui.