Ikhtisar cetak biru di AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ikhtisar cetak biru di AWS Glue

catatan

Fitur cetak biru saat ini tidak tersedia di Wilayah berikut di konsol AWS Glue: Asia Pasifik (Jakarta) dan Timur Tengah (UEA).

AWS Gluecetak biru menyediakan cara untuk membuat dan berbagi alur kerja. AWS Glue Ketika ada proses ETL kompleks yang dapat digunakan untuk kasus penggunaan serupa, daripada membuat AWS Glue alur kerja untuk setiap kasus penggunaan, Anda dapat membuat cetak biru tunggal.

Cetak biru menentukan tugas dan crawler untuk disertakan dalam alur kerja, dan menentukan parameter yang disediakan pengguna alur kerja saat mereka menjalankan cetak biru untuk membuat alur kerja. Penggunaan parameter memungkinkan satu cetak biru tunggal untuk menghasilkan alur kerja untuk berbagai kasus penggunaan serupa. Untuk informasi lebih lanjut tentang alur kerja, lihat Ikhtisar alur kerja di AWS Glue.

Berikut adalah contoh kasus penggunaan cetak biru:

  • Anda ingin melakukan partisi pada set data yang ada. Parameter masukan untuk cetak biru adalah path sumber dan target Amazon Simple Storage Service (Amazon S3) dan daftar kolom partisi.

  • Anda ingin membuat snapshot tabel Amazon DynamoDB ke penyimpanan data SQL seperti Amazon Redshift. Parameter input ke cetak biru adalah nama tabel DynamoDB dan koneksi, AWS Glue yang menunjuk cluster Amazon Redshift dan database tujuan.

  • Anda ingin mengkonversi data CSV di beberapa path Amazon S3 ke Parquet. Anda ingin AWS Glue alur kerja menyertakan crawler dan pekerjaan terpisah untuk setiap jalur. Parameter input adalah database tujuan dalam Katalog AWS Glue Data dan daftar jalur Amazon S3 yang dibatasi koma. Perhatikan bahwa dalam kasus ini, jumlah crawler dan tugas yang dibuat alur kerja adalah variabel.

Komponen cetak biru

Cetak biru adalah arsip ZIP yang berisi komponen-komponen berikut:

  • Sebuah skrip generator tata letak Python

    Berisi fungsi yang menentukan tata letak alur kerja—crawler dan tugas yang dapat dibuat untuk alur kerja, properti tugas dan crawler, serta dependensi antara tugas dan crawler. Fungsi menerima parameter cetak biru dan mengembalikan struktur alur kerja (objek JSON) yang AWS Glue digunakan untuk menghasilkan alur kerja. Karena Anda menggunakan skrip Python untuk menghasilkan alur kerja, dengan demikian Anda dapat menambahkan logika Anda sendiri yang cocok untuk kasus penggunaan Anda.

  • Sebuah file konfigurasi

    Menentukan nama yang memenuhi syarat dari fungsi Python yang menghasilkan tata letak alur kerja. Juga menentukan nama, tipe data, dan properti lainnya dari semua parameter cetak biru yang digunakan oleh skrip.

  • (Opsional) Skrip ETL dan file pendukung

    Sebagai kasus penggunaan lanjutan, Anda dapat melakukan parameterisasi pada lokasi skrip ETL yang digunakan tugas Anda. Anda dapat menyertakan file skrip tugas dalam arsip ZIP dan menentukan parameter cetak biru untuk lokasi Amazon S3 tempat di mana skrip akan disalin. Skrip generator tata letak dapat menyalin skrip ETL ke lokasi yang ditentukan dan menentukan lokasi itu sebagai properti lokasi skrip tugas. Anda juga dapat menyertakan perpustakaan atau file pendukung lainnya, dengan ketentuan bahwa skrip Anda menanganinya.


   Kotak berlabel Blueprint berisi dua kotak yang lebih kecil, satu berlabel Python Script dan lainnya berlabel Config File.
Eksekusi Cetak Biru

Saat Anda membuat alur kerja dari cetak biru, AWS Glue jalankan cetak biru, yang memulai proses asinkron untuk membuat alur kerja dan pekerjaan, crawler, dan pemicu yang dienkapsulasi alur kerja. AWS Gluemenggunakan blueprint run untuk mengatur pembuatan alur kerja dan komponennya. Anda melihat status proses pembuatan dengan melihat status eksekusi cetak biru. Eksekusi cetak biru juga menyimpan nilai-nilai yang Anda sediakan untuk parameter cetak biru.


   Kotak berlabel Blueprint run berisi ikon berlabel Workflow dan Nilai Parameter.

Anda dapat melihat blueprint berjalan menggunakan AWS Glue konsol atau AWS Command Line Interface (). AWS CLI Saat melihat atau memecahkan masalah alur kerja, Anda selalu dapat kembali ke eksekusi cetak biru untuk melihat nilai parameter cetak biru yang digunakan untuk membuat alur kerja.

Siklus hidup cetak biru

cetak biru dikembangkan, diuji, didaftarkanAWS Glue, dan dijalankan untuk membuat alur kerja. Biasanya ada tiga persona yang terlibat dalam siklus hidup cetak biru.

Persona Tugas
AWS Gluepengembang
  • Menulis skrip tata letak alur kerja dan menciptakan file konfigurasi.

  • Menguji cetak biru secara lokal menggunakan pustaka yang disediakan oleh layanan. AWS Glue

  • Menciptakan arsip ZIP skrip, file konfigurasi, dan file pendukung dan menerbitkan arsip ke lokasi di Amazon S3.

  • Menambahkan kebijakan bucket ke bucket Amazon S3 yang memberikan izin baca pada objek bucket ke akun administrator. AWS Glue AWS

  • Memberikan izin baca IAM pada arsip ZIP di Amazon S3 kepada administrator. AWS Glue

AWS Glueadministrator
  • Mendaftarkan cetak biru dengan. AWS Glue AWS Gluemembuat salinan arsip ZIP ke lokasi Amazon S3 yang dipesan.

  • Memberikan izin IAM pada cetak biru untuk analis data.

Analis data
  • Menjalankan cetak biru untuk membuat sebuah alur kerja, dan memberikan nilai parameter cetak biru. Memeriksa status eksekusi cetak biru untuk memastikan bahwa alur kerja dan komponen alur kerja berhasil dibuat.

  • Menjalankan dan memecahkan masalah alur kerja. Sebelum menjalankan alur kerja, dapat memverifikasi alur kerja dengan melihat grafik desain alur kerja di konsol. AWS Glue