Menggunakan resep persiapan data di AWS Glue Studio - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan resep persiapan data di AWS Glue Studio

AWS Glue Studiomemungkinkan Anda untuk menggunakan AWS Glue DataBrew resep dalam alur kerja visual. Hal ini memungkinkan AWS Glue DataBrew resep pelanggan untuk dijalankan dalam AWS Glue pekerjaan bersama dengan AWS Glue Studio node lainnya.

Dalam DataBrew, resep adalah serangkaian langkah transformasi data. DataBrew resep menentukan bagaimana mengubah data yang telah dibaca dan tidak menjelaskan di mana dan bagaimana membaca data, serta bagaimana dan di mana untuk menulis data. Ini dikonfigurasi di node Sumber dan Target diAWS Glue Studio. Untuk informasi selengkapnya tentang resep, lihat Membuat dan menggunakan AWS Glue DataBrew resep.

Node Resep Persiapan Data tersedia dari panel Sumber Daya. Anda dapat menghubungkan simpul Resep Persiapan Data ke node lain dalam alur kerja visual, apakah itu node sumber Data atau node transformasi lainnya. Setelah memilih AWS Glue DataBrew resep dan versi, langkah-langkah yang diterapkan dalam resep terlihat di tab properti simpul.

Prasyarat

  • Anda memiliki AWS Glue DataBrew resep yang dibuat diAWS Glue DataBrew.

  • Anda memiliki izin IAM yang diperlukan seperti yang dijelaskan di bagian di bawah ini.

Izin IAM untuk AWS Glue DataBrew

Topik ini memberikan informasi untuk membantu Anda memahami tindakan dan sumber daya yang dapat digunakan oleh administrator IAM dalam kebijakan AWS Identity and Access Management (IAM) untuk transformasi Resep Persiapan Data.

Untuk informasi tambahan tentang keamanan diAWS Glue, lihat Manajemen Akses.

Tabel berikut mencantumkan izin yang dibutuhkan pengguna untuk melakukan operasi tertentu untuk menggunakan transformasi Resep Persiapan Data.

Resep Persiapan Data mengubah tindakan
Action Deskripsi
databrew:ListRecipes Memberikan izin untuk mengambil resepAWS Glue DataBrew.
databrew:ListRecipeVersions Memberikan izin untuk mengambil versi AWS Glue DataBrew resep.
databrew:DescribeRecipe Memberikan izin untuk mengambil deskripsi AWS Glue DataBrew resep.

Peran yang Anda gunakan untuk mengakses fungsionalitas ini harus memiliki kebijakan yang memungkinkan beberapa AWS Glue DataBrew Anda dapat mencapainya dengan menggunakan AWSGlueConsoleFullAccess kebijakan yang menyertakan tindakan yang diperlukan atau menambahkan kebijakan sebaris berikut ke peran Anda:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "databrew:ListRecipes", "databrew:ListRecipeVersions", "databrew:DescribeRecipe" ], "Resource": [ "*" ] } ] }

Untuk menggunakan transformasi Resep Persiapan Data, Anda harus menambahkan IAM:PassRole tindakan ke kebijakan izin.

Izin tambahan yang diperlukan
Action Deskripsi
iam:PassRole Memberikan izin kepada IAM untuk memungkinkan pengguna melewati peran yang disetujui.

Tanpa izin ini terjadi kesalahan berikut:

"errorCode": "AccessDenied" "errorMessage": "User: arn:aws:sts::account_id:assumed-role/AWSGlueServiceRole is not authorized to perform: iam:PassRole on resource: arn:aws:iam::account_id:role/service-role/AWSGlueServiceRole because no identity-based policy allows the iam:PassRole action"

Keterbatasan:

  • Tidak semua AWS Glue DataBrew resep didukung olehAWS Glue. Beberapa resep tidak akan dapat dijalankanAWS Glue Studio.

    • Resep dengan transformasi UNION dan JOIN tidak didukung, namun, AWS Glue Studio sudah memiliki node transformasi “Join” dan “Union” yang dapat digunakan sebelum atau sesudah simpul Resep Persiapan Data sebagai gantinya.

  • Node Resep Persiapan Data didukung untuk pekerjaan yang dimulai dengan AWS Glue versi 4.0. Versi ini akan dipilih secara otomatis setelah simpul Resep Persiapan Data ditambahkan ke pekerjaan.

  • Simpul Resep Persiapan Data membutuhkan Python. Ini secara otomatis diatur ketika simpul Resep Persiapan Data ditambahkan ke pekerjaan.

  • Saat menggunakan Data Preview, Anda harus memulai ulang sesi pratinjau data Anda setelah menambahkan simpul Resep Persiapan Data ke pekerjaan Anda.

Cara menggunakan AWS Glue DataBrew resep di AWS Glue Studio

Untuk menggunakan AWS Glue DataBrew resepAWS Glue Studio, mulailah dengan membuat resep diAWS Glue DataBrew. Jika Anda memiliki resep yang ingin Anda gunakan, Anda dapat melewati langkah ini.

Untuk membuat AWS Glue DataBrew resep diAWS Glue DataBrew:
  1. Penulis resep diAWS Glue DataBrew. Untuk informasi selengkapnya, lihat Memulai dengan AWS Glue DataBrew.

  2. Simpan resep Anda.

  3. Publikasikan resep Anda. Ini akan mempublikasikan resep Anda sebagai versi 1.0.

Untuk menggunakan simpul Resep Persiapan Data diAWS Glue Studio:

Anda dapat menggunakan lebih dari satu simpul Resep Persiapan Data dalam pekerjaan ETL visual. Untuk melakukan ini, tambahkan simpul Resep Persiapan Data dengan mengikuti langkah-langkah di bawah ini dan tambahkan simpul Resep Persiapan Data lain ke pekerjaan. Misalnya, alur kerja mungkin mengikuti pola ini:

  • Sumber data 1 > resep 1 > keluaran 1

  • Sumber data 2 > resep 2 > output 2

  • keluaran 1, keluaran 2 > GABUNG

  1. Mulai AWS Glue pekerjaan AWS Glue Studio dengan sumber data.

  2. Tambahkan simpul Resep Persiapan Data ke sumber data Anda.

  3. Filter resep berdasarkan nama dengan mengetikkan nama resep di bidang pencarian.

  4. Pilih versi yang diterbitkan. Hanya versi yang diterbitkan yang tersedia.

  5. Selesaikan penulisan pekerjaan dengan menambahkan node transformasi lain sesuai kebutuhan dan tambahkan node target Data untuk menyimpan output pekerjaan.

  6. Buat perubahan konfigurasi yang diperlukan di tab Detail pekerjaan, seperti menamai pekerjaan Anda dan menyesuaikan kapasitas yang dialokasikan sesuai kebutuhan, dan simpan pekerjaan.

  7. Jalankan pekerjaan dengan memilih Jalankan dari menu tarik-turun Tindakan.

Untuk mengubah skema jika sumber datanya Amazon S3 dan format datanya CSV:

Jika semua kolom dalam file CSV awalnya dimuat sebagai tipe data stringAWS Glue Studio, Anda perlu memastikan bahwa tipe data kolom kompatibel dengan langkah-langkah lainnya dalam AWS Glue DataBrew resep.

AWS Glue DataBrewresep hanya menentukan cara mengubah data yang telah dibaca. Ini tidak menjelaskan di mana dan bagaimana membaca data.

  1. Tambahkan simpul Ubah Skema sebelum simpul resep Multi-langkah.

  2. Klik Ubah Skema simpul dan ubah skema menjadi sama dengan tipe data kolom AWS Glue DataBrew dengan memilih tipe data baru di Transform untuk kolom sesuai kebutuhan.

    Tangkapan layar menunjukkan transformasi Change Schema dengan tipe data untuk kolom yang disorot dengan persegi panjang merah.

Untuk mengubah skema jika sumber data tanpa kepala:

AWS Glue DataBrewresep hanya menentukan cara mengubah data yang telah dibaca. Ini tidak menjelaskan di mana dan bagaimana membaca data.

Saat memuat kumpulan data tanpa headerAWS Glue Studio, nama header default berbeda dari yang dimuat. AWS Glue DataBrew

  1. Dalam pekerjaan ETL, tambahkan node Change Schema sebelum simpul Resep Persiapan Data.

  2. Pilih simpul Ubah Skema dan ubah nama kolom ke nama yang sama yang digunakan dalam AWS Glue DataBrew resep.