Menggunakan beberapa sumber data dengan crawler - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan beberapa sumber data dengan crawler

Ketika AWS Glue crawler memindai Amazon S3 dan mendeteksi beberapa direktori, ia menggunakan heuristik untuk menentukan di mana root untuk tabel berada dalam struktur direktori, dan direktori mana yang merupakan partisi untuk tabel. Dalam beberapa kasus, tempat skema yang terdeteksi dalam dua atau lebih direktori serupa, crawler dapat memperlakukannya sebagai partisi dan bukan tabel terpisah. Salah satu cara untuk membantu crawler menemukan tabel individu adalah dengan menambahkan direktori root setiap tabel sebagai penyimpanan data untuk crawler.

Partisi berikut di Amazon S3 adalah contoh:

s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt

Jika skema untuk table1 dan serupa, dan table2 satu sumber data diatur ke s3://amzn-s3-demo-bucket/folder1/ dalam AWS Glue, crawler dapat membuat tabel tunggal dengan dua kolom partisi: satu kolom partisi yang berisi table1 dantable2, dan kolom partisi kedua yang berisi partition1 melalui. partition5

Agar AWS Glue crawler membuat dua tabel terpisah, atur crawler untuk memiliki dua sumber data, s3://amzn-s3-demo-bucket/folder1/table1/ dans3://amzn-s3-demo-bucket/folder1/table2, seperti yang ditunjukkan dalam prosedur berikut.

Untuk menambahkan penyimpanan data S3 ke crawler yang ada di AWS Glue
  1. Masuk ke AWS Management Console dan buka AWS Glue konsol di https://console.aws.amazon.com/glue/.

  2. Di panel navigasi, pilih Perayap.

  3. Pilih tautan ke crawler Anda, lalu pilih Edit.

  4. Untuk Langkah 2: Pilih sumber data dan pengklasifikasi, pilih Edit.

  5. Untuk Sumber data, pilih Tambahkan sumber data.

  6. Dalam kotak dialog Tambahkan sumber data, untuk jalur S3, pilih Jelajahi.

  7. Pilih bucket yang ingin Anda gunakan, lalu pilih Pilih.

    Sumber data yang Anda tambahkan muncul di daftar Sumber data.

  8. Pilih Berikutnya.

  9. Pada halaman Konfigurasi pengaturan keamanan, buat atau pilih IAM peran untuk crawler, lalu pilih Berikutnya.

  10. Pastikan bahwa jalur S3 berakhir dengan garis miring, lalu pilih Tambahkan sumber data S3.

  11. Pada halaman Set output dan penjadwalan, untuk konfigurasi Output, pilih database target.

  12. Pilih Berikutnya.

  13. Pada halaman Tinjau dan perbarui, tinjau pilihan yang Anda buat. Untuk mengedit langkah, pilih Edit.

  14. Pilih Perbarui.