Cetak biru dan alur kerja di Lake Formation - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Cetak biru dan alur kerja di Lake Formation

Alur kerja merangkum aktivitas multi-job extract, transform, and load (ETL) yang kompleks. Alur kerja menghasilkan AWS Glue crawler, pekerjaan, dan pemicu untuk mengatur pemuatan dan pembaruan data. Lake Formation mengeksekusi dan melacak alur kerja sebagai satu entitas. Anda dapat mengonfigurasi alur kerja agar berjalan sesuai permintaan atau sesuai jadwal.

Alur kerja yang Anda buat di Lake Formation terlihat di AWS Glue konsol sebagai grafik asiklik terarah (DAG). Setiap node DAG adalah job, crawler, atau trigger. Untuk memantau kemajuan dan pemecahan masalah, Anda dapat melacak status setiap node dalam alur kerja.

Ketika alur kerja Lake Formation telah selesai, pengguna yang menjalankan alur kerja diberikan SELECT izin Lake Formation pada tabel Katalog Data yang dibuat oleh alur kerja.

Anda juga dapat membuat alur kerja diAWS Glue. Namun, karena Lake Formation memungkinkan Anda membuat alur kerja dari cetak biru, membuat alur kerja jauh lebih sederhana dan lebih otomatis di Lake Formation. Lake Formation menyediakan jenis cetak biru berikut:

  • Snapshot database — Memuat atau memuat ulang data dari semua tabel ke dalam data lake dari sumber JDBC. Anda dapat mengecualikan beberapa data dari sumber berdasarkan pola pengecualian.

  • Database tambahan — Memuat hanya data baru ke dalam data lake dari sumber JDBC, berdasarkan bookmark yang ditetapkan sebelumnya. Anda menentukan tabel individual dalam database sumber JDBC untuk disertakan. Untuk setiap tabel, Anda memilih kolom bookmark dan urutan sortir bookmark untuk melacak data yang sebelumnya telah dimuat. Pertama kali Anda menjalankan cetak biru database inkremental terhadap sekumpulan tabel, alur kerja memuat semua data dari tabel dan menetapkan bookmark untuk menjalankan cetak biru database inkremental berikutnya. Oleh karena itu, Anda dapat menggunakan cetak biru database tambahan alih-alih cetak biru snapshot database untuk memuat semua data, asalkan Anda menentukan setiap tabel di sumber data sebagai parameter.

  • File log - memuat data massal dari sumber file log, termasuk AWS CloudTrail, log Elastic Load Balancing, dan log Application Load Balancer.

Gunakan tabel berikut untuk membantu memutuskan apakah akan menggunakan snapshot database atau cetak biru database inkremental.

Gunakan snapshot database saat... Gunakan database inkremental saat...
  • Evolusi skema fleksibel. (Kolom diberi nama ulang, kolom sebelumnya dihapus, dan kolom baru ditambahkan di tempatnya.)

  • Diperlukan konsistensi yang lengkap antara sumber dan tujuan.

  • Evolusi skema bersifat inkremental. (Hanya ada penambahan kolom berturut-turut.)

  • Hanya baris baru yang ditambahkan; baris sebelumnya tidak diperbarui.

catatan

Pengguna tidak dapat mengedit cetakan biru dan alur kerja yang dibuat oleh Lake Formation.