Fitur dan konsep penting - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Fitur dan konsep penting

Pencatatan dan pemantauan

AWS Glue memiliki beberapa opsi pencatatan dan pemantauan. Secara default, AWS Glue mengirim log ke grup aws-glue log di Amazon CloudWatch. Log ini mencakup informasi seperti waktu mulai dan berakhir, pengaturan konfigurasi, dan kesalahan atau peringatan apa pun yang mungkin terjadi.

Selain itu, pekerjaan AWS Glue Spark ETL menyediakan opsi berikut, yang harus diaktifkan untuk pemantauan lanjutan:

  • Metrik Job melaporkan metrik spesifik pekerjaan ke AWS Glue namespace setiap 30 detik. CloudWatch Metrik spesifik pekerjaan ini, seperti catatan yang diproses, ukuran data input/output total, dan runtime, memberikan wawasan tentang kinerja pekerjaan. Mereka dapat membantu mengidentifikasi kemacetan atau peluang untuk mengoptimalkan konfigurasi.

  • Pencatatan berkelanjutan mengalirkan log pekerjaan Apache Spark real-time ke grup /aws-glue/jobs/logs-v2 log di. CloudWatch Dengan menggunakan log waktu nyata, Anda dapat memantau AWS Glue pekerjaan secara dinamis saat sedang berjalan.

  • Spark UI menyediakan antarmuka web server riwayat Spark untuk melihat informasi tentang pekerjaan Spark, seperti timeline acara setiap tahap, grafik asiklik terarah, dan variabel lingkungan kerja. Log peristiwa Spark UI yang bertahan disimpan di Amazon S3, dan Anda dapat menggunakannya secara real time atau setelah pekerjaan selesai.

  • Wawasan Job run menyederhanakan debugging dan pengoptimalan pekerjaan dengan mendengarkan pengecualian Spark umum, melakukan analisis akar penyebab, dan memberikan tindakan yang disarankan untuk memperbaiki masalah. Wawasan disimpan di CloudWatch.

Otomatisasi

AWS Glue menyediakan dua cara utama bagi Anda untuk mengotomatiskan pekerjaan ETL: pemicu dan alur kerja.

AWS Glue pemicu

Saat diaktifkan, AWS Glue pemicu memulai pekerjaan dan perayap yang ditentukan. Pemicu dapat ditembakkan sesuai permintaan, berdasarkan jadwal yang telah ditentukan, atau berdasarkan peristiwa tertentu. Anda dapat menggunakan pemicu untuk merancang rantai pekerjaan dan crawler yang bergantung. Untuk informasi lebih lanjut, lihat AWS Glue pemicu. 

AWS Glue alur kerja

Untuk beban kerja yang lebih kompleks, Anda dapat menggunakan AWS Glue alur kerja untuk membuat grafik asiklik terarah dan membangun dependensi antara AWS Glue entitas terpisah (pemicu, perayap, dan pekerjaan). Alur kerja juga menyediakan antarmuka terpadu tempat Anda dapat berbagi parameter, memantau kemajuan, dan memecahkan masalah di seluruh entitas terkait.

Menyiapkan banyak entitas terkait dalam AWS Glue alur kerja dapat tumbuh semakin kompleks. Pengembang dapat membuat AWS Glue cetak biru untuk berbagi jaringan data yang kompleks dengan ilmuwan data dan analis bisnis. Template ini memungkinkan pembuatan AWS Glue alur kerja yang konsisten dan berulang, mengabstraksi detail teknis.

Untuk mempelajari selengkapnya tentang AWS Glue cetak biru dan alur kerja, lihat Melakukan aktivitas ETL yang kompleks menggunakan cetak biru dan alur kerja di. AWS Glue

Mengatur AWS Glue pekerjaan dengan layanan lain AWS

Untuk opsi otomatisasi lainnya, AWS Glue integrasikan dengan AWS layanan lain, seperti AWS Lambda AWS Step Functions, dan Alur Kerja Terkelola Amazon untuk Apache Airflow (Amazon MWAA).

Untuk membandingkan metode orkestrasi yang berbeda untuk pekerjaan AWS Glue ETL, lihat Membangun pipa data yang sangat baik secara operasional.

Bookmark tugas

Bookmark Job AWS Glue digunakan untuk melacak kemajuan pekerjaan ETL, yang mencegah kebutuhan untuk memproses ulang data dalam menjalankan pekerjaan berikutnya. Ketika bookmark pekerjaan diaktifkan, AWS Glue menyimpan catatan data yang telah diproses. Kemudian dengan setiap proses, hanya memproses data baru di sumber data. Untuk informasi selengkapnya, lihat Melacak data yang diproses menggunakan bookmark pekerjaan.