Bekerja dengan crawler di konsol AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bekerja dengan crawler di konsol AWS Glue

Crawler mengakses penyimpanan data Anda, mengekstrak metadata, dan membuat definisi tabel di AWS Glue Data Catalog. Panel Crawler pada konsol AWS Glue mencantumkan semua crawler yang Anda buat. Daftar ini menampilkan status dan metrik dari eksekusi crawler terakhir Anda.

catatan

Jika Anda memilih untuk membawa versi driver JDBC Anda sendiri, AWS Glue crawler akan menggunakan sumber daya dalam AWS Glue pekerjaan dan bucket Amazon S3 untuk memastikan driver yang Anda berikan dijalankan di lingkungan Anda. Penggunaan sumber daya tambahan akan tercermin di akun Anda. Selain itu, menyediakan driver JDBC Anda sendiri tidak berarti bahwa crawler dapat memanfaatkan semua fitur pengemudi. Driver terbatas pada properti yang dijelaskan dalam Menambahkan AWS Glue koneksi.

Untuk menambahkan sebuah crawler menggunakan konsol
  1. Masuk ke Konsol Manajemen AWS dan buka konsol AWS Glue di https://console.aws.amazon.com/glue/. Pilih Crawler di panel navigasi.

  2. Pilih Create crawler, dan ikuti petunjuk di Add crawler wizard. Wizard akan memandu Anda melalui langkah-langkah berikut.

    1. Mengatur properti crawler. Masukkan nama untuk crawler dan deskripsi Anda (opsional).

      Secara opsional, Anda dapat menandai crawler dengan sebuah Kunci tag dan Nilai tag opsional. Setelah dibuat, kunci tag bersifat baca-saja. Gunakan tag ke sumber daya Anda untuk membantu mengatur dan mengidentifikasi sumber daya tersebut. Untuk informasi selengkapnya, lihat AWS tag di AWS Glue.

    2. Pilih sumber data dan pengklasifikasi. Dalam konfigurasi sumber data, pilih 'Belum lagi' atau 'Ya' untuk menjawab pertanyaan 'Apakah data Anda dipetakan ke tabel? AWS Glue Secara default, 'Belum lagi' dipilih.

      Jika data Anda sudah dipetakan ke AWS Glue tabel, pilih Tambahkan sumber data. Untuk informasi selengkapnya, lihat Menambahkan AWS Glue Koneksi.

      Di jendela Tambahkan sumber data, pilih sumber data Anda dan pilih opsi yang sesuai untuk sumber data Anda.

      (Opsional) Jika Anda memilih JDBC sebagai sumber data, Anda dapat menggunakan driver JDBC Anda sendiri saat menentukan akses Koneksi tempat info driver disimpan.

    3. Konfigurasikan pengaturan keamanan. Pilih peran IAM yang ada atau buat peran IAM baru.

      catatan

      Untuk menambahkan driver JDBC Anda sendiri, izin tambahan perlu ditambahkan. Untuk informasi selengkapnya, silakan lihat

      • Berikan izin untuk tindakan pekerjaan berikut:CreateJob,,DeleteJob, GetJobGetJobRun,StartJobRun.

      • Berikan izin untuk tindakan Amazon S3s3:DeleteObjects:s3:GetObject,,,s3:ListBucket. s3:PutObject

        catatan

        Tidak s3:ListBucket diperlukan jika kebijakan bucket Amazon S3 dinonaktifkan.

      • Berikan akses utama layanan ke ember/folder dalam kebijakan Amazon S3.

      Contoh kebijakan Amazon S3:

      { "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::bucket-name/driver-parent-folder/driver.jar", "arn:aws:s3:::bucket-name" ] } ] }

      AWS Gluemembuat folder berikut (_crawlerdan _glue_job_crawler pada tingkat yang sama dengan driver JDBC di bucket Amazon S3 Anda. Misalnya, jika jalur driver<s3-path/driver_folder/driver.jar>, maka folder berikut akan dibuat jika belum ada:

      • <s3-path/driver_folder/_crawler>

      • <s3-path/driver_folder/_glue_job_crawler>

      Opsional, Anda dapat menambahkan konfigurasi keamanan untuk sebuah crawler untuk menentukan opsi enkripsi secara at-rest.

    4. Atur output dan penjadwalan. Anda dapat memilih database target, menambahkan awalan untuk ditambahkan ke nama tabel, dan menetapkan ambang batas tabel maksimum (opsional).

      Saat memilih jadwal crawler, pilih frekuensinya.

    5. Tinjau dan buat. Pilih Edit untuk membuat perubahan pada salah satu langkah di wizard. Setelah selesai, pilih Buat crawler.

Ketika Anda melakukan perayapan pada Daftar Tabel DynamoDB, Anda dapat memilih satu nama tabel dari daftar tabel DynamoDB di akun Anda.

Tip

Untuk informasi selengkapnya tentang mengkonfigurasi crawler, lihat Properti crawler.

Melihat Hasil dan Detail Crawler

Setelah crawler berjalan dengan sukses, crawler tersebut akan menciptakan definisi tabel dalam Katalog Data. Pilih Tabel di panel navigasi untuk melihat tabel yang dibuat oleh crawler Anda dalam basis data yang Anda tentukan.

Anda dapat melihat informasi yang terkait dengan crawler itu sendiri dengan langkah sebagai berikut:

  • Halaman Crawler pada konsol AWS Glue menampilkan properti berikut untuk sebuah crawler:

    Properti Deskripsi
    Nama

    Bila Anda membuat sebuah crawler, Anda harus memberinya nama yang unik.

    Status

    Sebuah crawler dapat berada dalam keadaan siap, mulai, berhenti, dijadwalkan, atau jadwal berhenti. Sebuah crawler yang berjalan, progresnya dari mulai hingga berhenti. Anda dapat melanjutkan atau menjeda jadwal yang dilampirkan ke sebuah crawler.

    Jadwal

    Anda dapat memilih untuk menjalankan crawler Anda sesuai permintaan atau memilih frekuensi dengan jadwal. Untuk informasi selengkapnya tentang penjadwalan crawler, lihat Menjadwalkan sebuah Crawler.

    Lari terakhir

    Tanggal dan waktu terakhir kali crawler dijalankan.

    Log

    Tautkan ke log yang tersedia dari eksekusi crawler terakhir.

    Tabel berubah dari proses terakhir

    Jumlah tabel dalam AWS Glue Data Catalog yang telah diperbarui oleh eksekusi crawler terbaru.

  • Untuk melihat riwayat crawler, pilih Crawler di panel navigasi untuk melihat crawler yang Anda buat. Pilih crawler dari daftar crawler yang tersedia. Anda dapat melihat properti crawler dan melihat riwayat crawler di tab Crawler running.

    Tab Crawler run menampilkan informasi tentang setiap kali crawler berjalan, termasuk Waktu mulai (UTC), Waktu akhir (UTC), Durasi, Status, jam DPU, dan perubahan Tabel.

    Tab Crawler run hanya menampilkan crawl yang telah terjadi sejak tanggal peluncuran fitur riwayat crawler, dan hanya mempertahankan perayapan hingga 12 bulan. Perayapan yang lebih tua tidak akan dikembalikan.

  • Untuk melihat informasi tambahan, pilih tab di halaman detail crawler. Setiap tab akan menampilkan informasi yang terkait dengan crawler.

    • Jadwal: Setiap jadwal yang dibuat untuk crawler akan terlihat di sini.

    • Sumber data: Semua sumber data yang dipindai oleh crawler akan terlihat di sini.

    • Pengklasifikasi: Semua pengklasifikasi yang ditetapkan ke crawler akan terlihat di sini.

    • Tag: Setiap tag yang dibuat dan ditetapkan ke AWS sumber daya akan terlihat di sini.