Membuat alur kerja - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat alur kerja

Sebelum memulai, pastikan bahwa Anda telah memberikan izin data yang diperlukan dan izin lokasi data untuk peran tersebut. LakeFormationWorkflowRole Ini agar alur kerja dapat membuat tabel metadata di Katalog Data dan menulis data ke lokasi target di Amazon S3. Untuk informasi selengkapnya, lihat (Opsional) Buat peran IAM untuk alur kerja dan Ikhtisar izin Lake Formation .

catatan

Lake Formation menggunakanGetTemplateInstance,GetTemplateInstances, dan InstantiateTemplate operasi untuk membuat alur kerja dari cetak biru. Operasi ini tidak tersedia untuk umum, dan hanya digunakan secara internal untuk membuat sumber daya atas nama Anda. Anda menerima CloudTrail acara untuk membuat alur kerja.

Untuk membuat alur kerja dari cetak biru
  1. Buka AWS Lake Formation konsol di https://console.aws.amazon.com/lakeformation/. Masuk sebagai administrator data lake atau sebagai pengguna yang memiliki izin insinyur data. Untuk informasi selengkapnya, lihat Referensi personas Lake Formation dan izin IAM.

  2. Di panel navigasi, pilih Blueprints, lalu pilih Gunakan cetak biru.

  3. Pada halaman Gunakan cetak biru, pilih ubin untuk memilih jenis cetak biru.

  4. Di bawah Impor sumber, tentukan sumber data.

    Jika Anda mengimpor dari sumber JDBC, tentukan yang berikut ini:

    • Koneksi database —Pilih koneksi dari daftar. Buat koneksi tambahan menggunakan AWS Glue konsol. Nama pengguna dan kata sandi JDBC dalam koneksi menentukan objek database yang dapat diakses oleh alur kerja.

    • Jalur data sumber —Masukkan<database>/<schema>/<table>atau<database>/<table>, tergantung pada produk database. Basis Data Oracle dan MySQL tidak mendukung skema dalam path. Anda dapat mengganti karakter persen (%) untuk <schema> atau <table>. Misalnya, untuk database Oracle dengan pengenal sistem (SID) dariorcl, masukkan orcl/% untuk mengimpor semua tabel yang pengguna nama dalam koneksi memiliki akses ke.

      penting

      Bidang ini peka huruf besar/kecil. Alur kerja akan gagal jika ada ketidakcocokan kasus untuk salah satu komponen.

      Jika Anda menentukan database MySQL AWS Glue , ETL menggunakan driver Mysql5 JDBC secara default, sehingga MySQL8 tidak didukung secara native. Anda dapat mengedit skrip pekerjaan ETL untuk menggunakan customJdbcDriverS3Path parameter seperti yang dijelaskan dalam JDBC ConnectionType Values di Panduan Pengembang untuk menggunakan driver JDBC AWS Glue berbeda yang mendukung MySQL8.

    Jika Anda mengimpor dari file log, pastikan bahwa peran yang Anda tentukan untuk alur kerja (“peran alur kerja”) memiliki izin IAM yang diperlukan untuk mengakses sumber data. Misalnya, untuk mengimpor AWS CloudTrail log, pengguna harus memiliki cloudtrail:LookupEvents izin cloudtrail:DescribeTrails dan untuk melihat daftar CloudTrail log saat membuat alur kerja, dan peran alur kerja harus memiliki izin pada lokasi di CloudTrail Amazon S3.

  5. Lakukan salah satu hal berikut ini:

    • Untuk jenis cetak biru snapshot Database, identifikasi subset data yang akan diimpor secara opsional dengan menentukan satu atau beberapa pola pengecualian. Pola pengecualian ini adalah pola gaya Unixglob. Mereka disimpan sebagai properti dari tabel yang dibuat oleh alur kerja.

      Untuk detail tentang pola pengecualian yang tersedia, lihat Menyertakan dan Mengecualikan Pola di Panduan AWS Glue Pengembang.

    • Untuk jenis cetak biru database Incremental, tentukan bidang berikut. Tambahkan baris untuk setiap tabel untuk diimpor.

      Nama tabel

      Tabel untuk mengimpor. Harus semua huruf kecil.

      Tombol bookmark

      Daftar nama kolom yang dibatasi koma yang menentukan kunci bookmark. Jika kosong, kunci utama digunakan untuk menentukan data baru. Kasus untuk setiap kolom harus cocok dengan kasus seperti yang didefinisikan dalam sumber data.

      catatan

      Kunci primer memenuhi syarat sebagai kunci bookmark default hanya jika secara berurutan meningkat atau menurun (tanpa celah). Jika Anda ingin menggunakan kunci primer sebagai kunci bookmark dan memiliki celah, Anda harus memberi nama kolom kunci utama sebagai kunci bookmark.

      Urutan bookmark

      Saat Anda memilih Ascending, baris dengan nilai lebih besar dari nilai yang ditandai diidentifikasi sebagai baris baru. Saat Anda memilih Menurun, baris dengan nilai kurang dari nilai yang ditandai diidentifikasi sebagai baris baru.

      Skema pembagian

      (Opsional) Daftar kolom kunci partisi, dibatasi oleh garis miring (/). Contoh: year/month/day.

      Bagian data tambahan konsol mencakup bidang-bidang ini: Nama tabel, Tombol bookmark, Urutan bookmark, Skema partisi. Anda dapat menambah atau menghapus baris, di mana setiap baris adalah untuk tabel yang berbeda.

      Untuk informasi selengkapnya, lihat Melacak Data yang Diproses Menggunakan Bookmark Job di Panduan AWS Glue Pengembang.

  6. Di bawah Impor target, tentukan database target, target lokasi Amazon S3, dan format data.

    Pastikan bahwa peran alur kerja memiliki izin Lake Formation yang diperlukan pada database dan lokasi target Amazon S3.

    catatan

    Saat ini, cetak biru tidak mendukung enkripsi data pada target.

  7. Pilih frekuensi impor.

    Anda dapat menentukan cron ekspresi dengan opsi Kustom.

  8. Di bawah opsi Impor:

    1. Masukkan nama alur kerja.

    2. Untuk peran, pilih peranLakeFormationWorkflowRole, yang Anda buat(Opsional) Buat peran IAM untuk alur kerja.

    3. Secara opsional menentukan awalan tabel. Awalan ditambahkan ke nama tabel Katalog Data yang dibuat alur kerja.

  9. Pilih Buat, dan tunggu konsol melaporkan bahwa alur kerja berhasil dibuat.

    Tip

    Apakah Anda mendapatkan pesan kesalahan berikut?

    User: arn:aws:iam::<account-id>:user/<username> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/<rolename>...

    Jika demikian, periksa apakah Anda mengganti <account-id>dengan nomor AWS akun yang valid di semua kebijakan.