Tutorial: Menambahkan crawler AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tutorial: Menambahkan crawler AWS Glue

Untuk skenario AWS Glue ini, Anda diminta menganalisis data datangnya maskapai penerbangan utama untuk menghitung popularitas bandara keberangkatan dari bulan ke bulan. Anda memiliki data penerbangan tahun 2016 dalam format CSV yang disimpan di Amazon S3. Sebelum Anda mengubah dan menganalisis data Anda, Anda membuat katalog metadata-nya di AWS Glue Data Catalog.

Dalam tutorial ini, mari kita tambahkan sebuah crawler yang menyimpulkan metadata dari log penerbangan ini di Amazon S3 dan menciptakan tabel dalam Katalog Data Anda.

Prasyarat

Tutorial ini mengasumsikan bahwa Anda telah memiliki akun AWS dan akses ke AWS Glue.

Langkah 1: Menambahkan crawler

Gunakan langkah-langkah berikut untuk mengkonfigurasi dan menjalankan sebuah crawler yang mengekstrak metadata dari file CSV yang disimpan di Amazon S3.

Untuk membuat crawler yang membaca file yang disimpan di Amazon S3
  1. Pada konsol layanan AWS Glue, di menu sebelah kiri, pilih Crawler.

  2. Pada halaman Crawler, pilih Create crawler. Langkah ini akan memulai serangkaian halaman yang meminta Anda untuk memberikan detail crawler.

    Tangkapan layar menunjukkan halaman crawler. Dari sini Anda dapat membuat crawler atau mengedit, menduplikasi, menghapus, melihat crawler yang ada.
  3. Dalam kolom nama Crawler, masukkan Flights Data Crawler, dan pilih Selanjutnya.

    Crawler memanggil pengklasifikasi untuk menyimpulkan skema dari data Anda. Tutorial ini menggunakan pengklasifikasi bawaan untuk CSV secara default.

  4. Untuk jenis sumber crawler, pilih Penyimpanan data dan pilih Selanjutnya.

  5. Sekarang mari kita arahkan crawler tersebut ke data Anda. Pada halaman Tambahkan penyimpanan data, pilih penyimpanan data Amazon S3. Tutorial ini tidak menggunakan koneksi, jadi biarkan Koneksi kosong jika Anda melihatnya.

    Untuk opsi Lakukan crawling pada data di, pilih Path yang ditentukan di akun lain. Kemudian, untuk Sertakan path, masukkan path di mana crawler dapat menemukan data penerbangan tersebut, yaitu s3://crawler-public-us-east-1/flight/2016/csv. Setelah Anda memasukkan path-nya, judul kolom ini akan berubah menjadi Sertakan path. Pilih Selanjutnya.

  6. Anda dapat meng-crawl beberapa penyimpanan data dengan satu crawler tunggal. Namun, dalam tutorial ini, kita hanya menggunakan satu penyimpanan data tunggal, jadi pilih Tidak, lalu pilih Selanjutnya.

  7. Crawler tersebut membutuhkan izin untuk mengakses penyimpanan data dan membuat objek di AWS Glue Data Catalog. Untuk mengkonfigurasi izin ini, pilih Buat IAM role. Nama IAM role dimulai dengan AWSGlueServiceRole-, dan di kolom, Anda masukkan bagian terakhir dari nama peran tersebut. Masukkan CrawlerTutorial, lalu pilih Selanjutnya.

    catatan

    Untuk membuat IAM role, pengguna AWS Anda harus memiliki izin CreateRole, CreatePolicy, dan AttachRolePolicy.

    Penuntun menciptakan IAM role bernama AWSGlueServiceRole-CrawlerTutorial, melampirkan kebijakan terkelola AWS AWSGlueServiceRole ke peran ini, dan menambahkan kebijakan inline yang memungkinkan akses baca ke lokasi Amazon S3 s3://crawler-public-us-east-1/flight/2016/csv.

  8. Buat satu jadwal untuk crawler. Untuk Frekuensi, pilih Eksekusi sesuai permintaan, lalu pilih Selanjutnya.

  9. Crawler membuat tabel di Katalog Data Anda. Tabel terkandung dalam basis data di Katalog Data. Pertama, pilih Tambahkan basis data untuk membuat basis data. Di jendela pop-up, masukkan test-flights-db sebagai nama basis data, lalu pilih Buat.

    Selanjutnya, masukkan flights untuk Prefiks yang ditambahkan ke tabel. Gunakan nilai default untuk opsi lainnya, lalu pilih Selanjutnya.

  10. Verifikasi pilihan yang Anda buat di penuntun Tambahkan crawler. Jika Anda melihat kesalahan, Anda dapat memilih Kembali untuk kembali ke halaman sebelumnya dan melakukan perubahan.

    Setelah Anda meninjau informasinya, pilih Selesai untuk membuat crawler tersebut.

Langkah 2: Jalankan crawler

Setelah membuat sebuah crawler, penuntun akan mengirimkan Anda ke halaman tampilan Crawler. Karena Anda membuat crawler dengan jadwal sesuai permintaan, maka Anda diberi opsi untuk menjalankan crawler tersebut.

Untuk menjalankan crawler
  1. Banner yang ada di dekat bagian atas halaman ini memungkinkan Anda mengetahui bahwa crawler sudah dibuat, dan menanyakan apakah Anda ingin menjalankannya sekarang. Pilih Jalankan sekarang? untuk menjalankan crawler.

    Banner akan berubah untuk menampilkan pesan "Mencoba menjalankan" dan "Berjalan" untuk crawler Anda. Setelah crawler mulai berjalan, banner akan hilang, dan tampilan crawler akan diperbarui untuk menampilkan status Mulai untuk crawler Anda. Setelah satu menit, Anda dapat mengklik ikon Refresh untuk memperbarui status crawler yang ditampilkan dalam tabel tersebut.

  2. Saat crawler selesai, akan muncul banner baru yang menjelaskan perubahan yang dilakukan oleh crawler. Anda dapat memilih test-flights-dblink untuk melihat objek Data Catalog.

Langkah 3: Lihat objek AWS Glue Data Catalog

Crawler membaca data di lokasi sumber dan menciptakan tabel di Katalog Data. Sebuah tabel adalah definisi metadata yang mewakili data Anda, termasuk skemanya. Tabel dalam Katalog Data tidak berisi data. Sebaliknya, Anda menggunakan tabel ini sebagai sumber atau target dalam definisi tugas.

Untuk melihat objek Katalog Data yang dibuat oleh crawler
  1. Pada navigasi yang ada di sisi kiri, pada Katalog data, pilih Basis data. Di sini Anda dapat melihat basis data flights-db yang telah dibuat oleh crawler.

  2. Pada navigasi yang ada di sisi kiri, pada Katalog data dan di bawah Basis data, pilih Tabel. Di sini Anda dapat melihat tabel flightscsv yang sudah dibuat oleh crawler. Jika Anda memilih nama tabel tersebut, maka Anda dapat melihat pengaturan tabel, parameter, dan properti. Gulir ke bawah dalam tampilan ini, Anda dapat melihat skema, yang merupakan informasi tentang kolom dan jenis data dari tabel tersebut.

  3. Jika Anda memilih Lihat partisi pada halaman tampilan tabel, maka Anda dapat melihat partisi yang dibuat untuk data tersebut. Kolom pertama adalah kunci partisi.