Fitur editor tugas - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Fitur editor tugas

Editor tugas menyediakan fitur-fitur berikut untuk membuat dan mengedit tugas.

  • Sebuah diagram visual tugas Anda, dengan simpul untuk setiap tugas: simpul sumber data untuk membaca data; simpul transformasi untuk memodifikasi data; simpul target data untuk menulis data.

    Anda dapat melihat dan mengkonfigurasi properti dari setiap simpul dalam diagram tugas tersebut. Anda juga dapat melihat skema dan sampel data untuk setiap simpul dalam diagram tugas tersebut. Fitur ini membantu Anda memverifikasi bahwa tugas Anda memodifikasi dan mengubah data dengan cara yang benar, tanpa harus menjalankan tugas.

  • Sebuah Skrip melihat dan mengedit tab, di mana Anda dapat memodifikasi kode yang dihasilkan untuk tugas Anda.

  • Tab Detail tugas, di mana Anda dapat mengkonfigurasi berbagai pengaturan untuk menyesuaikan lingkungan di mana tugas ETL AWS Glue Anda berjalan.

  • Tab Eksekusi, di mana Anda dapat melihat tugas saat ini dan sebelumnya, melihat status eksekusi tugas, dan mengakses log untuk eksekusi tugas tersebut.

  • Tab kualitas data, tempat Anda dapat menerapkan aturan kualitas data ke pekerjaan Anda.

  • Tab Jadwal, di mana Anda dapat mengkonfigurasi waktu mulai untuk tugas Anda, atau mengatur eksekusi tugas berulang.

  • Tab Kontrol Versi, tempat Anda dapat mengonfigurasi layanan Git untuk digunakan dengan pekerjaan Anda.

Menggunakan pratinjau skema dalam editor tugas visual

Saat membuat atau mengedit tugas Anda, Anda dapat menggunakan tab Skema output untuk melihat skema untuk data Anda.

Sebelum Anda dapat melihat skema, editor tugas memerlukan izin untuk mengakses sumber data. Anda dapat menentukan IAM role pada tab Detail tugas pada editor atau pada tab Skema output untuk sebuah simpul. Jika IAM role memiliki semua izin yang diperlukan untuk mengakses sumber data, Anda kemudian dapat melihat skema pada tab Skema output untuk sebuah simpul.

Menggunakan pratinjau data dalam editor tugas visual

Pratinjau data membantu Anda membuat dan menguji pekerjaan menggunakan sampel data Anda tanpa harus berulang kali menjalankan pekerjaan. Dengan menggunakan pratinjau data, Anda dapat:

  • Uji peran IAM untuk memastikan Anda memiliki akses ke sumber data atau target data Anda.

  • Periksa apakah transformasi memodifikasi data dengan cara yang dimaksud. Misalnya, jika Anda menggunakan Transformasi filter, Anda dapat memastikan bahwa filter memilih subset data yang tepat.

  • Periksa data Anda. Jika set data Anda berisi kolom dengan beberapa jenis nilai, maka pratinjau data akan menampilkan daftar tupel untuk kolom-kolom ini. Setiap tupel berisi tipe data dan nilainya.

Saat membuat atau mengedit pekerjaan Anda, Anda dapat menggunakan tab Pratinjau data di bawah kanvas pekerjaan untuk melihat sampel data Anda. Sesi pratinjau data baru akan dimulai secara otomatis ketika peran sudah dikonfigurasi pada pekerjaan atau peran IAM default telah disiapkan di akun. Jika peran belum dikonfigurasi sebelumnya, Anda dapat memulai sesi dengan memilih peran.

Tangkapan layar menunjukkan tab Pratinjau data untuk sebuah simpul.
catatan

Peran yang Anda pilih untuk sesi pratinjau data juga akan digunakan untuk pekerjaan itu.

Anda dapat melihat status dan kemajuan sesi Anda serta detail sesi dengan mengklik ikon info.

Ketika sesi siap, AWS Glue Studio akan memuat data untuk node yang Anda pilih. Anda dapat melihat% selesai saat berlangsung.

Tangkapan layar menunjukkan tab Pratinjau data untuk simpul yang telah dimulai.

Saat Anda membuat pekerjaan visual Anda, secara otomatis AWS Glue Studio akan memperbarui skema untuk simpul yang dipilih saat Anda beralih skema Inferensi dari sesi di tab skema Output.

Tangkapan layar menunjukkan tab Pratinjau data untuk simpul yang telah dimulai.

Untuk mengonfigurasi preferensi pratinjau data Anda:

Pilih ikon pengaturan (simbol roda gigi) untuk mengkonfigurasi preferensi Anda untuk pratinjau data. Pengaturan ini berlaku untuk semua simpul dalam diagram tugas. Anda dapat:

  • Pilih untuk membungkus teks dari satu baris ke baris berikutnya. Opsi ini diaktifkan secara default

  • Ubah jumlah baris (default ke 200)

  • Pilih peran IAM atau buat peran IAM jika diperlukan

  • Pilih untuk secara otomatis memulai sesi baru ketika Anda menulis pekerjaan. Ini memberikan sesi interaktif baru saat menulis pekerjaan. Pengaturan ini berlaku di tingkat akun. Setelah diatur, itu akan berlaku untuk semua pengguna di akun Anda saat mengedit pekerjaan apa pun.

  • Pilih untuk secara otomatis menyimpulkan skema. Skema output akan secara otomatis disimpulkan untuk node yang dipilih

  • Pilih untuk mengimpor AWS Glue pustaka secara otomatis. Ini berguna karena akan mencegah pratinjau data memulai ulang sesi baru saat menambahkan transformasi baru yang memerlukan restart sesi

Tangkapan layar menunjukkan preferensi yang dapat Anda atur untuk fitur pratinjau data.

Fitur tambahan termasuk kemampuan untuk:

  • Pilih Pratinjau x dari bidang y untuk memilih kolom (bidang) yang akan dipratinjau. Saat Anda mempratinjau data Anda menggunakan pengaturan default, editor tugas menampilkan 5 kolom pertama dari set data Anda. Anda dapat mengubah ini untuk menampilkan semua atau tidak ada (tidak disarankan).

  • Gulir melalui jendela pratinjau data baik secara horizontal maupun vertikal.

  • Gunakan tombol maksimalkan untuk memperluas tab Pratinjau data untuk meletakkan grafik pekerjaan secara berlebihan untuk melihat struktur data dan data dengan lebih baik. Demikian pula, gunakan tombol minimalkan untuk meminimalkan tab pratinjau Data. Anda juga dapat mengambil panel pegangan dan menyeret ke atas untuk memperluas tab Pratinjau data.

    Tangkapan layar menunjukkan panel pratinjau data dengan tombol minimalkan dan maksimalkan yang disorot, serta panel pegangan yang dapat Anda gunakan untuk memperluas panel pratinjau data secara vertikal.
  • Gunakan Sesi akhir untuk menghentikan pratinjau data. Ketika Anda menghentikan sesi, Anda dapat memilih peran IAM baru, dan mengatur pengaturan tambahan (seperti mengaktifkan atau menonaktifkan pengaturan untuk secara otomatis memulai sesi baru, menyimpulkan skema, atau mengimpor AWS Glue pustaka, dan memulai sesi lagi.

Keterbatasan saat menggunakan pratinjau data

Saat menggunakan pratinjau data, Anda mungkin mengalami keterbatasan atau batasan berikut.

  • Pertama kali Anda memilih tab Pratinjau data, Anda harus memilih IAM role. Peran ini harus memiliki izin yang diperlukan untuk mengakses data dan sumber daya lain yang diperlukan untuk membuat pratinjau data tersebut.

  • Setelah Anda memberikan IAM role, dibutuhkan beberapa saat sebelum data tersedia dan bisa dilihat. Untuk set data dengan data kurang dari 1 GB, dibutuhkan waktu hingga satu menit. Jika Anda memiliki set data yang besar, Anda harus menggunakan partisi untuk meningkatkan waktu unggah. Memigrasikan data secara langsung dari Amazon S3 memiliki performa terbaik.

  • Jika Anda memiliki kumpulan data yang sangat besar, dan dibutuhkan lebih dari 15 menit untuk menanyakan data untuk pratinjau data, permintaan akan habis. Pratinjau data memiliki batas waktu IDLE 30 menit. Untuk meringankan hal ini, kurangi ukuran dataset untuk menggunakan pratinjau data.

  • Secara default, Anda melihat 50 kolom pertama di tab Pratinjau data. Jika kolom tidak memiliki nilai data, Anda akan mendapatkan sebuah pesan bahwa tidak ada data untuk ditampilkan. Anda dapat meningkatkan jumlah baris sampel, atau kolom berbeda yang telah dipilih untuk melihat nilai data.

  • Pratinjau data saat ini tidak didukung untuk sumber data streaming, atau sumber data yang menggunakan konektor kustom.

  • Kesalahan pada satu simpul berpengaruh pada seluruh tugas. Jika salah satu simpul memiliki kesalahan dengan data pratinjau, maka kesalahan akan muncul pada semua simpul sampai Anda memperbaikinya.

  • Jika Anda mengubah sumber data untuk tugas tersebut, maka simpul anak dari sumber data tersebut mungkin perlu diperbarui agar sesuai dengan skema baru. Misalnya, jika Anda memiliki ApplyMapping node yang memodifikasi kolom, dan kolom tidak ada di sumber data pengganti, Anda perlu memperbarui node ApplyMapping transformasi.

  • Jika Anda melihat tab Pratinjau data untuk simpul transformasi kueri SQL, dan kueri SQL menggunakan nama bidang yang salah, maka tab Pratinjau data akan menunjukkan kesalahan.

Pembuatan kode skrip

Saat Anda menggunakan editor visual untuk membuat pekerjaan, kode ETL dibuat secara otomatis untuk Anda. AWS Glue Studiomembuat skrip pekerjaan fungsional dan lengkap, dan menyimpannya di lokasi Amazon S3.

Ada dua bentuk kode yang dihasilkan olehAWS Glue Studio: versi asli, atau Klasik, dan versi yang lebih baru dan efisien. Secara default, generator kode baru digunakan untuk membuat skrip pekerjaan. Anda dapat membuat skrip pekerjaan menggunakan pembuat kode klasik pada tab Script dengan memilih tombol sakelar Hasilkan skrip klasik.

Beberapa perbedaan dalam versi baru dari kode yang dihasilkan meliputi:

  • Blok komentar besar tidak lagi ditambahkan ke skrip

  • Struktur output dalam kode menggunakan nama node yang Anda tentukan di editor visual. Dalam skrip kelas, struktur output hanya diberi namaDataSource0,DataSource1,Transform0,Transform1,DataSink0,DataSink1, dan sebagainya.

  • Perintah panjang dibagi menjadi beberapa baris untuk menghilangkan kebutuhan untuk menggulir di halaman untuk melihat seluruh perintah.

Fitur baru AWS Glue Studio memerlukan versi baru pembuatan kode, dan tidak akan berfungsi dengan skrip kode klasik. Anda diminta untuk memperbarui pekerjaan ini ketika Anda mencoba menjalankannya.