Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Ikhtisar alur kerja di AWS Glue
Masuk AWS Glue, Anda dapat menggunakan alur kerja untuk membuat dan memvisualisasikan aktivitas ekstrak, transformasi, dan pemuatan (ETL) kompleks yang melibatkan beberapa perayap, pekerjaan, dan pemicu. Setiap alur kerja mengelola eksekusi dan pemantauan semua tugas dan crawlernya. Saat alur kerja menjalankan setiap komponen, ia mencatat kemajuan eksekusi dan status. Hal ini memberi Anda gambaran umum tentang tugas yang lebih besar dan detail dari setiap langkah. Bagian AWS Glue konsol menyediakan representasi visual dari alur kerja sebagai grafik.
Anda dapat membuat alur kerja dari AWS Glue cetak biru, atau Anda dapat membuat alur kerja komponen secara manual pada satu waktu menggunakan atau. AWS Management Console AWS Glue API Untuk informasi selengkapnya tentang cetak biru, lihat Ikhtisar cetak biru di AWS Glue.
Pemicu dalam alur kerja dapat memulai tugas dan crawler dan dapat diaktifkan saat tugas atau crawler selesai. Dengan menggunakan pemicu, Anda dapat membuat rantai besar tugas dan crawler yang saling bergantung. Selain pemicu dalam sebuah alur kerja yang menentukan dependensi tugas dan crawler, setiap alur kerja memiliki pemicu awal. Ada tiga jenis pemicu awal:
-
Terjadwal — Alur kerja dimulai sesuai jadwal yang Anda tetapkan. Jadwal dapat berupa jadwal harian, mingguan, bulanan, dan sebagainya, atau dapat menjadi jadwal kustom berdasarkan ekspresi
cron
. -
Sesuai permintaan — Alur kerja dimulai secara manual dari AWS Glue konsol, API, atau AWS CLI.
-
EventBridge event — Alur kerja dimulai pada saat terjadinya satu EventBridge peristiwa Amazon atau sekumpulan EventBridge peristiwa Amazon. Dengan tipe pemicu ini, AWS Glue dapat menjadi konsumen acara dalam arsitektur yang digerakkan oleh peristiwa. Setiap jenis EventBridge acara dapat memulai alur kerja. Kasus penggunaan umum adalah tibanya objek baru dalam bucket Amazon S3 (operasi
PutObject
S3).Memulai sebuah alur kerja dengan batch peristiwa berarti menunggu sampai sejumlah peristiwa tertentu telah diterima atau sampai jumlah waktu tertentu telah berlalu. Saat Anda membuat pemicu EventBridge peristiwa, Anda dapat menentukan kondisi batch secara opsional. Jika Anda menentukan syarat batch, maka Anda harus menentukan ukuran batch (jumlah peristiwa), dan secara opsional dapat menentukan jendela batch (jumlah detik). Jendela batch default dan maksimumnya adalah 900 detik (15 menit). Syarat batch yang terpenuhi pertama kali akan memulai alur kerja. Jendela batch dimulai ketika peristiwa pertama datang. Jika Anda tidak menentukan syarat batch saat membuat sebuah pemicu, maka ukuran batch default-nya adalah 1.
Ketika alur kerja tersebut dimulai, syarat batch akan reset dan pemicu peristiwa mulai mengawasi syarat batch berikutnya yang harus dipenuhi untuk memulai alur kerja lagi.
Tabel berikut menunjukkan bagaimana ukuran batch dan jendela batch beroperasi bersama-sama untuk memicu sebuah alur kerja.
Ukuran batch Jendela batch Syarat pemicu yang dihasilkan 10 Alur kerja dipicu pada saat kedatangan 10 EventBridge peristiwa, atau 15 menit setelah kedatangan acara pertama, mana yang terjadi lebih dulu. (Jika ukuran jendela tidak ditentukan, maka ukuran default-nya adalah 15 menit.) 10 2 menit Alur kerja dipicu pada saat kedatangan 10 EventBridge peristiwa, atau 2 menit setelah kedatangan acara pertama, mana yang terjadi lebih dulu. 1 Alur kerja dipicu pada saat datangnya peristiwa pertama. Ukuran jendela tidak relevan. Ukuran batch default ke 1 jika Anda tidak menentukan kondisi batch saat Anda membuat pemicu peristiwa. EventBridge Operasi API
GetWorkflowRun
mengembalikan syarat batch yang memicu alur kerja.
Terlepas dari bagaimana alur kerja dimulai, Anda dapat menentukan jumlah maksimum eksekusi alur kerja yang bersamaan saat Anda membuat alur kerja.
Jika peristiwa atau batch peristiwa mulai menjalankan sebuah alur kerja yang pada akhirnya gagal, maka peristiwa atau batch peristiwa tidak lagi dianggap untuk memulai eksekusi alur kerja. Eksekusi alur kerja baru akan dimulai hanya ketika peristiwa atau batch peristiwa berikutnya datang.
penting
Batasi jumlah total pekerjaan, crawler, dan pemicu dalam alur kerja hingga 100 atau kurang. Jika Anda menyertakan lebih dari 100, Anda mungkin mendapatkan kesalahan saat mencoba melanjutkan atau menghentikan alur kerja berjalan.
Eksekusi alur kerja tidak akan dimulai jika ia akan melebihi batas jumlah eksekusi alur kerja bersamaan yang ditetapkan untuk alur kerja, meskipun syarat peristiwa terpenuhi. Dianjurkan untuk menyesuaikan batas konkurensi alur kerja berdasarkan volume acara yang diharapkan. AWS Glue tidak mencoba lagi alur kerja yang gagal karena melebihi batas konkurensi. Demikian juga, disarankan untuk menyesuaikan batas jumlah eksekusi alur kerja bersamaan untuk tugas dan crawler dalam alur kerja berdasarkan volume peristiwa yang diharapkan.
Properti jalankan alur kerja
Untuk berbagi dan mengelola status di seluruh alur kerja, Anda dapat menentukan properti eksekusi alur kerja default. Properti ini, yang pasangan nama/nilainya, tersedia untuk semua tugas di alur kerja. Dengan menggunakan AWS Glue API, pekerjaan dapat mengambil properti alur kerja yang dijalankan dan memodifikasinya untuk pekerjaan yang muncul nanti dalam alur kerja.
Grafik alur kerja
Gambar berikut menunjukkan grafik alur kerja yang sangat dasar pada AWS Glue konsol. Alur kerja Anda bisa memiliki belasan komponen.

Alur kerja ini dimulai oleh pemicu terjadwal, Month-close1
, yang memulai dua tugas, De-duplicate
dan Fix phone numbers
. Setelah berhasil menyelesaikan kedua tugas, pemicu peristiwa, Fix/De-dupe succeeded
, memulai crawler, Update schema
.
Tampilan alur kerja statis dan dinamis
Untuk setiap alur kerja, ada gagasan tampilan statis dan tampilan dinamis. Tampilan statis menunjukkan desain dari alur kerja. Tampilan dinamis adalah tampilan waktu aktif yang mencakup informasi eksekusi terbaru untuk masing-masing tugas dan crawler. Informasi yang dijalankan mencakup detail status sukses dan kesalahan.
Ketika sebuah alur kerja berjalan, konsol menampilkan tampilan dinamis, yang secara grafis menunjukkan tugas yang telah selesai dan yang belum dijalankan. Anda juga dapat mengambil tampilan dinamis dari sebuah alur kerja yang berjalan menggunakan AWS Glue API. Untuk informasi selengkapnya, lihat Mengkueri alur kerja menggunakan AWS Glue API.