Ikhtisar alur kerja di AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ikhtisar alur kerja di AWS Glue

Di AWS Glue, Anda dapat menggunakan alur kerja untuk membuat dan memvisualisasikan kegiatan extract, transform, and load (ETL) kompleks yang melibatkan beberapa crawler, tugas, dan pemicu. Setiap alur kerja mengelola eksekusi dan pemantauan semua tugas dan crawlernya. Saat alur kerja menjalankan setiap komponen, ia mencatat kemajuan eksekusi dan status. Hal ini memberi Anda gambaran umum tentang tugas yang lebih besar dan detail dari setiap langkah. Konsol AWS Glue menyediakan sebuah representasi visual dari sebuah alur kerja dalam bentuk grafik.

Anda dapat membuat alur kerja dari cetak biru AWS Glue, atau Anda dapat secara manual membangun alur kerja komponen pada satu waktu dengan menggunakan AWS Management Console atau AWS Glue API. Untuk informasi selengkapnya tentang cetak biru, lihat Ikhtisar cetak biru di AWS Glue.

Pemicu dalam alur kerja dapat memulai tugas dan crawler dan dapat diaktifkan saat tugas atau crawler selesai. Dengan menggunakan pemicu, Anda dapat membuat rantai besar tugas dan crawler yang saling bergantung. Selain pemicu dalam sebuah alur kerja yang menentukan dependensi tugas dan crawler, setiap alur kerja memiliki pemicu awal. Ada tiga jenis pemicu awal:

  • Terjadwal — Alur kerja dimulai sesuai jadwal yang Anda tetapkan. Jadwal dapat berupa jadwal harian, mingguan, bulanan, dan sebagainya, atau dapat menjadi jadwal kustom berdasarkan ekspresi cron.

  • Sesuai permintaan — Alur kerja dimulai secara manual dari konsol AWS Glue, API, atau AWS CLI.

  • EventBridge event — Alur kerja dimulai pada saat terjadinya satu EventBridge peristiwa Amazon atau sekumpulan EventBridge peristiwa Amazon. Dengan tipe pemicu ini, AWS Glue dapat menjadi konsumen peristiwa dalam arsitektur didorong-peristiwa. Setiap jenis EventBridge acara dapat memulai alur kerja. Kasus penggunaan umum adalah tibanya objek baru dalam bucket Amazon S3 (operasi PutObject S3).

    Memulai sebuah alur kerja dengan batch peristiwa berarti menunggu sampai sejumlah peristiwa tertentu telah diterima atau sampai jumlah waktu tertentu telah berlalu. Saat Anda membuat pemicu EventBridge peristiwa, Anda dapat menentukan kondisi batch secara opsional. Jika Anda menentukan syarat batch, maka Anda harus menentukan ukuran batch (jumlah peristiwa), dan secara opsional dapat menentukan jendela batch (jumlah detik). Jendela batch default dan maksimumnya adalah 900 detik (15 menit). Syarat batch yang terpenuhi pertama kali akan memulai alur kerja. Jendela batch dimulai ketika peristiwa pertama datang. Jika Anda tidak menentukan syarat batch saat membuat sebuah pemicu, maka ukuran batch default-nya adalah 1.

    Ketika alur kerja tersebut dimulai, syarat batch akan reset dan pemicu peristiwa mulai mengawasi syarat batch berikutnya yang harus dipenuhi untuk memulai alur kerja lagi.

    Tabel berikut menunjukkan bagaimana ukuran batch dan jendela batch beroperasi bersama-sama untuk memicu sebuah alur kerja.

    Ukuran batch Jendela batch Syarat pemicu yang dihasilkan
    10 Alur kerja dipicu pada saat kedatangan 10 EventBridge peristiwa, atau 15 menit setelah kedatangan acara pertama, mana yang terjadi lebih dulu. (Jika ukuran jendela tidak ditentukan, maka ukuran default-nya adalah 15 menit.)
    10 2 menit Alur kerja dipicu pada saat kedatangan 10 EventBridge peristiwa, atau 2 menit setelah kedatangan acara pertama, mana yang terjadi lebih dulu.
    1 Alur kerja dipicu pada saat datangnya peristiwa pertama. Ukuran jendela tidak relevan. Ukuran batch default ke 1 jika Anda tidak menentukan kondisi batch saat Anda membuat pemicu peristiwa. EventBridge

    Operasi API GetWorkflowRun mengembalikan syarat batch yang memicu alur kerja.

Terlepas dari bagaimana alur kerja dimulai, Anda dapat menentukan jumlah maksimum eksekusi alur kerja yang bersamaan saat Anda membuat alur kerja.

Jika peristiwa atau batch peristiwa mulai menjalankan sebuah alur kerja yang pada akhirnya gagal, maka peristiwa atau batch peristiwa tidak lagi dianggap untuk memulai eksekusi alur kerja. Eksekusi alur kerja baru akan dimulai hanya ketika peristiwa atau batch peristiwa berikutnya datang.

penting

Batasi jumlah total pekerjaan, crawler, dan pemicu dalam alur kerja hingga 100 atau kurang. Jika Anda menyertakan lebih dari 100, Anda mungkin mendapatkan kesalahan saat mencoba melanjutkan atau menghentikan alur kerja berjalan.

Eksekusi alur kerja tidak akan dimulai jika ia akan melebihi batas jumlah eksekusi alur kerja bersamaan yang ditetapkan untuk alur kerja, meskipun syarat peristiwa terpenuhi. Dianjurkan untuk menyesuaikan batas jumlah eksekusi alur kerja bersamaan berdasarkan volume peristiwa yang diharapkan. AWS Glue tidak akan mencoba lagi eksekusi alur kerja yang gagal karena melampaui batas jumlah eksekusi alur kerja bersamaan. Demikian juga, disarankan untuk menyesuaikan batas jumlah eksekusi alur kerja bersamaan untuk tugas dan crawler dalam alur kerja berdasarkan volume peristiwa yang diharapkan.

Properti jalankan alur kerja

Untuk berbagi dan mengelola status di seluruh alur kerja, Anda dapat menentukan properti eksekusi alur kerja default. Properti ini, yang pasangan nama/nilainya, tersedia untuk semua tugas di alur kerja. Dengan menggunakan AWS Glue API, tugas dapat mengambil properti eksekusi alur kerja dan mengubahnya untuk tugas yang datang kemudian dalam alur kerja tersebut.

Grafik alur kerja

Gambar berikut menampilkan grafik alur kerja yang sangat mendasar pada konsol AWS Glue. Alur kerja Anda bisa memiliki belasan komponen.

Cuplikan layar konsol yang menampilkan tab Grafik dari sebuah alur kerja. Grafik berisi lima ikon yang mewakili pemicu terjadwal, dua tugas, pemicu peristiwa berhasil, dan crawler yang memperbarui skema.

Alur kerja ini dimulai oleh pemicu terjadwal, Month-close1, yang memulai dua tugas, De-duplicate dan Fix phone numbers. Setelah berhasil menyelesaikan kedua tugas, pemicu peristiwa, Fix/De-dupe succeeded, memulai crawler, Update schema.

Tampilan alur kerja statis dan dinamis

Untuk setiap alur kerja, ada gagasan tampilan statis dan tampilan dinamis. Tampilan statis menunjukkan desain dari alur kerja. Tampilan dinamis adalah tampilan waktu aktif yang mencakup informasi eksekusi terbaru untuk masing-masing tugas dan crawler. Informasi yang dijalankan mencakup detail status sukses dan kesalahan.

Ketika sebuah alur kerja berjalan, konsol menampilkan tampilan dinamis, yang secara grafis menunjukkan tugas yang telah selesai dan yang belum dijalankan. Anda juga dapat mengambil tampilan dinamis dari sebuah alur kerja yang berjalan menggunakan AWS Glue API. Untuk informasi selengkapnya, lihat Menanyakan alur kerja menggunakan AWS Glue API.