Mendefinisikan properti pekerjaan untuk pekerjaan Spark Pembatasan untuk pekerjaan yang mengakses tabel terkelola Lake Formation

Mengkonfigurasi properti pekerjaan untuk pekerjaan Spark di AWS Glue

Saat menentukan pekerjaan di AWS Glue konsol, Anda memberikan nilai properti untuk mengontrol lingkungan AWS Glue runtime.

Mendefinisikan properti pekerjaan untuk pekerjaan Spark

Daftar berikut menjelaskan properti-properti tugas Spark. Untuk properti dari tugas shell Python, lihat Mendefinisikan properti pekerjaan untuk pekerjaan shell Python. Untuk properti dari tugas ETL streaming, lihat Mendefinisikan properti pekerjaan untuk pekerjaan ETL streaming.

Properti tercantum dalam urutan kemunculannya di Add job wizard di AWS Glue konsol.

Nama

Berikan string UTF-8 dengan panjang maksimum 255 karakter.

Deskripsi

Berikan deskripsi opsional hingga 2048 karakter.

IAM Role

Tentukan IAM role yang digunakan untuk otorisasi ke sumber daya yang digunakan untuk menjalankan tugas dan mengakses penyimpanan data. Untuk informasi selengkapnya tentang izin untuk menjalankan pekerjaan di AWS Glue, lihatManajemen identitas dan akses untuk AWS Glue.

Tipe

Jenis pekerjaan ETL. Ini diatur secara otomatis berdasarkan jenis sumber data yang Anda pilih.

Spark menjalankan skrip Apache Spark ETL dengan perintah pekerjaan. glueetl
Spark Streaming menjalankan skrip ETL streaming Apache Spark dengan perintah pekerjaan. gluestreaming Untuk informasi selengkapnya, lihat Lowongan kerja Streaming ETL di AWS Glue.
Shell Python menjalankan skrip Python dengan perintah job. pythonshell Untuk informasi selengkapnya, lihat Mengonfigurasi properti pekerjaan untuk pekerjaan shell Python di AWS Glue.

Versi AWS Glue

AWS Glue versi menentukan versi Apache Spark dan Python yang tersedia untuk pekerjaan, seperti yang ditentukan dalam tabel berikut.

AWS Glue versi	Versi Spark dan Python yang didukung
5.0	Percikan 3.5.4 Python 3.11
4.0	Spark 3.3.0 Python 3.10
3.0	Spark 3.1.1 Python 3.7

Bahasa

Kode dalam skrip ETL mendefinisikan logika tugas Anda. Skrip dapat dikodekan dengan Python atau Scala. Anda dapat memilih apakah skrip yang dijalankan pekerjaan dihasilkan oleh AWS Glue atau disediakan oleh Anda. Anda menyediakan nama skrip dan lokasi di Amazon Simple Storage Service (Amazon S3). Konfirmasi bahwa tidak ada file dengan nama yang sama sebagai direktori skrip pada path. Untuk mem-pelajari selengkapnya tentang menulis skrip, lihat AWS Glue panduan pemrograman.

Jenis pekerja

Jenis-jenis pekerja berikut tersedia:

Sumber daya yang tersedia pada AWS Glue pekerja diukur dalam DPUs. DPU adalah ukuran relatif daya pemrosesan yang terdiri dari 4 v CPUs kapasitas komputasi dan memori 16 GB.

G.025X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 0, 25 DPU (2 vCPUs, 4 GB memori) dengan 84GB disk (sekitar 34GB gratis). Kami merekomendasikan jenis pekerja ini untuk pekerjaan streaming volume rendah. Jenis pekerja ini hanya tersedia untuk pekerjaan streaming AWS Glue versi 3.0 atau yang lebih baru.
G.1X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 1 DPU (4 vCPUs, memori 16 GB) dengan disk 94GB (sekitar 44GB gratis). Kami merekomendasikan jenis pekerja ini untuk beban kerja seperti transformasi data, gabungan, dan kueri, untuk menawarkan cara yang skalabel dan hemat biaya untuk menjalankan sebagian besar pekerjaan.
G.2X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 2 DPU (8 vCPUs, memori 32 GB) dengan disk 138GB (sekitar 78GB gratis). Kami merekomendasikan jenis pekerja ini untuk beban kerja seperti transformasi data, gabungan, dan kueri, untuk menawarkan cara yang skalabel dan hemat biaya untuk menjalankan sebagian besar pekerjaan.
G.4X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 4 DPU (memori 16 vCPUs, 64 GB) dengan disk 256GB (sekitar 230GB gratis). Kami merekomendasikan jenis pekerja ini untuk pekerjaan yang beban kerjanya berisi transformasi, agregasi, gabungan, dan kueri Anda yang paling menuntut.
G.8X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 8 DPU (memori 32 vCPUs, 128 GB) dengan disk 512GB (sekitar 485GB gratis). Kami merekomendasikan jenis pekerja ini untuk pekerjaan yang beban kerjanya berisi transformasi, agregasi, gabungan, dan kueri Anda yang paling menuntut.
G.12X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 12 DPU (memori 48 vCPUs, 192 GB) dengan disk 768GB (sekitar 741GB gratis). Kami merekomendasikan jenis pekerja ini untuk pekerjaan dengan beban kerja yang sangat besar dan intensif sumber daya yang membutuhkan kapasitas komputasi yang signifikan.
G.16X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 16 DPU (64 vCPUs, 256 GB memori) dengan disk 1024GB (sekitar 996GB gratis). Kami merekomendasikan jenis pekerja ini untuk pekerjaan dengan beban kerja terbesar dan paling intensif sumber daya yang membutuhkan kapasitas komputasi maksimum.
R.1X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 1 DPU dengan konfigurasi yang dioptimalkan untuk memori. Kami merekomendasikan jenis pekerja ini untuk beban kerja intensif memori yang sering mengalami out-of-memory kesalahan atau memerlukan rasio tinggi. memory-to-CPU
R.2X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 2 DPU dengan konfigurasi yang dioptimalkan untuk memori. Kami merekomendasikan jenis pekerja ini untuk beban kerja intensif memori yang sering mengalami out-of-memory kesalahan atau memerlukan rasio tinggi. memory-to-CPU
R.4X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 4 DPU dengan konfigurasi yang dioptimalkan untuk memori. Kami merekomendasikan jenis pekerja ini untuk beban kerja intensif memori besar yang sering mengalami out-of-memory kesalahan atau memerlukan rasio tinggi. memory-to-CPU
R.8X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 8 DPU dengan konfigurasi yang dioptimalkan untuk memori. Kami merekomendasikan jenis pekerja ini untuk beban kerja intensif memori yang sangat besar yang sering mengalami out-of-memory kesalahan atau memerlukan rasio tinggi. memory-to-CPU

Spesifikasi Jenis Pekerja

Tabel berikut memberikan spesifikasi rinci untuk semua jenis pekerja G yang tersedia:

Spesifikasi Tipe Pekerja G
Jenis Pekerja	DPU per Node	vCPU	Memori (GB)	Disk (GB)	Ruang Disk Gratis (GB)	Pelaksana Spark untuk Node
G.025X	0,25	2	4	84	34	1
G.1X	1	4	16	94	44	1
G.2X	2	8	32	138	78	1
G.4X	4	16	64	256	230	1
G.8X	8	32	128	512	485	1
G.12X	12	48	192	768	741	1
G.16X	16	64	256	1024	996	1

Penting: Jenis pekerja G.12X dan G.16X, serta semua tipe pekerja R (R.1X hingga R.8X), memiliki latensi startup yang lebih tinggi.

Anda dikenakan tarif per jam berdasarkan jumlah yang DPUs digunakan untuk menjalankan pekerjaan ETL Anda. Untuk informasi lebih lanjut, lihat halaman harga AWS Glue.

Untuk AWS Glue versi 1.0 atau pekerjaan sebelumnya, saat Anda mengonfigurasi pekerjaan menggunakan konsol dan menentukan jenis Standar Pekerja, Kapasitas maksimum diatur dan Jumlah pekerja menjadi nilai Kapasitas maksimum - 1. Jika Anda menggunakan AWS Command Line Interface (AWS CLI) atau AWS SDK, Anda dapat menentukan parameter Kapasitas maks, atau Anda dapat menentukan jenis Pekerja dan Jumlah pekerja.

Untuk AWS Glue versi 2.0 atau pekerjaan yang lebih baru, Anda tidak dapat menentukan Kapasitas maksimum. Sebaliknya, Anda harus menentukan Jenis pekerja dan Jumlah pekerja.

G.4Xdan jenis G.8X pekerja hanya tersedia untuk pekerjaan Spark ETL AWS Glue versi 3.0 atau yang lebih baru di AWS Wilayah berikut: AS Timur (Ohio), AS Timur (Virginia N.), AS Barat (California N.), AS Barat (Oregon), Asia Pasifik (Mumbai), Asia Pasifik (Seoul), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Tokyo), Kanada (Tengah), Eropa (Frank Eropa (Irlandia), Eropa (London), Eropa (Spanyol), Eropa (Stockholm), dan Amerika Selatan (São Paulo).

G.12X,G.16X, dan R.1X melalui jenis R.8X pekerja hanya tersedia untuk AWS Glue versi 4.0 atau yang lebih baru pekerjaan Spark ETL di AWS Wilayah berikut: AS Timur (Virginia N.), AS Barat (Oregon), AS Timur (Ohio), Eropa (Irlandia), dan Eropa (Frankfurt). Wilayah tambahan akan didukung dalam rilis future.

Jumlah pekerja yang diminta

Untuk sebagian besar jenis pekerja, Anda harus menentukan jumlah pekerja yang dialokasikan saat pekerjaan berjalan.

Bookmark tugas

Tentukan bagaimana AWS Glue memproses informasi status saat pekerjaan berjalan. Anda dapat membuatnya mengingat data yang diproses sebelumnya, memperbarui informasi status, atau mengabaikan informasi status. Untuk informasi selengkapnya, lihat Melacak data yang diproses menggunakan bookmark pekerjaan.

Job run antrian

Menentukan apakah pekerjaan berjalan antri untuk berjalan nanti ketika mereka tidak dapat berjalan segera karena kuota layanan.

Saat diperiksa, antrian job run diaktifkan untuk menjalankan pekerjaan. Jika tidak dihuni, pekerjaan berjalan tidak akan dipertimbangkan untuk antrian.

Jika setelan ini tidak cocok dengan nilai yang ditetapkan dalam job run, maka nilai dari bidang job run akan digunakan.

Eksekusi fleksibel

Saat mengonfigurasi pekerjaan menggunakan AWS Studio atau API, Anda dapat menentukan kelas eksekusi pekerjaan standar atau fleksibel. Pekerjaan Anda mungkin memiliki berbagai tingkat prioritas dan sensitivitas waktu. Kelas eksekusi standar sangat ideal untuk beban kerja yang sensitif terhadap waktu yang membutuhkan startup pekerjaan cepat dan sumber daya khusus.

Kelas eksekusi fleksibel cocok untuk pekerjaan yang tidak mendesak seperti pekerjaan pra-produksi, pengujian, dan pemuatan data satu kali. Jalankan pekerjaan yang fleksibel didukung untuk pekerjaan yang menggunakan AWS Glue versi 3.0 atau yang lebih baru dan G.1X atau jenis G.2X pekerja. Jenis pekerja baru (G.12X,G.16X, dan R.1X melaluiR.8X) tidak mendukung eksekusi yang fleksibel.

Flex job run ditagih berdasarkan jumlah pekerja yang berjalan kapan saja. Jumlah pekerja dapat ditambahkan atau dihapus untuk menjalankan pekerjaan yang fleksibel. Alih-alih menagih sebagai perhitungan Max Capacity sederhana*Execution Time, setiap pekerja akan berkontribusi untuk waktu yang dijalankan selama pekerjaan dijalankan. Tagihan adalah jumlah dari (Number of DPUs per worker*time each worker ran).

Untuk informasi selengkapnya, lihat panel bantuan di AWS Studio, atau Tugas danTugas berjalan.

Jumlah percobaan

Tentukan berapa kali, dari 0 hingga 10, yang AWS Glue akan secara otomatis memulai ulang pekerjaan jika gagal. Tugas yang mencapai batas habis waktu tidak dimulai ulang.

Tugas habis waktu

Atur waktu eksekusi maksimal dalam satuan menit. Maksimal 7 hari atau 10.080 menit. Jika tidak, pekerjaan akan memberikan pengecualian.

Ketika nilai dibiarkan kosong, batas waktu default menjadi 2880 menit.

Setiap AWS Glue pekerjaan yang ada yang memiliki nilai batas waktu lebih dari 7 hari akan default menjadi 7 hari. Misalnya jika Anda menentukan batas waktu 20 hari untuk pekerjaan batch, itu akan dihentikan pada hari ke-7.

Praktik terbaik untuk batas waktu kerja

Pekerjaan ditagih berdasarkan waktu eksekusi. Untuk menghindari tagihan yang tidak terduga, konfigurasikan nilai batas waktu yang sesuai untuk waktu eksekusi yang diharapkan dari pekerjaan Anda.

Properti Lanjutan

Nama file skrip

Nama skrip unik untuk pekerjaan Anda. Tidak dapat diberi nama Pekerjaan Tanpa Judul.

Jalur skrip

Lokasi skrip Amazon S3. Jalannya harus dalam bentuks3://bucket/prefix/path/. Itu harus diakhiri dengan garis miring (/) dan tidak menyertakan file apa pun.

Metrik Tugas

Aktifkan atau matikan pembuatan CloudWatch metrik Amazon saat pekerjaan ini berjalan. Untuk melihat data pemrofilan, Anda harus mengaktifkan opsi ini. Untuk informasi selengkapnya tentang cara mengaktifkan dan memvisualisasikan metrik, lihat Pemantauan dan debugging Job.

Metrik observabilitas pekerjaan

Aktifkan pembuatan CloudWatch metrik observabilitas tambahan saat pekerjaan ini berjalan. Untuk informasi selengkapnya, lihat Pemantauan dengan metrik AWS Glue Observabilitas.

Pencatatan log berkelanjutan

Aktifkan pencatatan terus menerus ke Amazon CloudWatch. Jika opsi ini tidak diaktifkan, maka log hanya tersedia setelah tugas selesai saja. Untuk informasi selengkapnya, lihat Logging untuk AWS Glue pekerjaan.

Spark UI

Hidupkan penggunaan Spark UI untuk memantau tugas ini. Untuk informasi selengkapnya, lihat Mengaktifkan UI web Apache Spark untuk pekerjaan AWS Glue.

Jalur log UI Spark

Jalur untuk menulis log saat Spark UI diaktifkan.

Konfigurasi logging dan pemantauan Spark UI

Pilih salah satu opsi berikut:

Standar: tulis log menggunakan ID AWS Glue job run sebagai nama file. Aktifkan pemantauan UI Spark di AWS Glue konsol.
Legacy: tulis log menggunakan 'spark-application- {timestamp} 'sebagai nama file. Jangan nyalakan pemantauan UI Spark.
Standar dan warisan: tulis log ke lokasi standar dan lama. Aktifkan pemantauan UI Spark di AWS Glue konsol.

Konkurensi maksimum

Mengatur jumlah maksimal eksekusi bersamaan yang diperbolehkan untuk tugas ini. Default-nya adalah 1. Kesalahan dikembalikan ketika ambang batas ini tercapai. Nilai maksimal yang dapat Anda tentukan dikendalikan oleh kuota layanan. Sebagai contoh, jika eksekusi tugas sebelumnya masih berjalan ketika sebuah instans baru dimulai, maka Anda mungkin ingin mengembalikan kesalahan untuk mencegah dua instans dari tugas yang sama agar tidak berjalan secara bersamaan.

Jalur sementara

Berikan lokasi direktori kerja di Amazon S3 di mana hasil perantara sementara ditulis saat AWS Glue menjalankan skrip. Konfirmasi bahwa tidak ada file dengan nama yang sama sebagai direktori sementara pada path. Direktori ini digunakan saat AWS Glue membaca dan menulis ke Amazon Redshift dan oleh transformasi tertentu AWS Glue .

catatan

AWS Glue membuat ember sementara untuk pekerjaan jika ember belum ada di suatu wilayah. Bucket ini mungkin mengizinkan akses publik. Anda dapat memodifikasi bucket di Amazon S3 untuk mengatur blok akses publik, atau menghapus bucket nanti setelah semua tugas di wilayah tersebut telah selesai.

Ambang batas pemberitahuan tunda (menit)

Menetapkan ambang batas (dalam menit) sebelum sebuah notifikasi penundaan dikirim. Anda dapat mengatur ambang batas ini untuk mengirim notifikasi ketika eksekusi tugas RUNNING, STARTING, atau STOPPING memerlukan waktu lebih dari jumlah menit yang diharapkan.

Konfigurasi keamanan

Pilih sebuah konfigurasi keamanan dari daftar. Sebuah konfigurasi keamanan menentukan bagaimana data pada target Amazon S3 dienkripsi: tidak ada enkripsi, enkripsi sisi server dengan kunci terkelola AWS KMS(SSE-KMS), atau kunci enkripsi yang dikelola Amazon S3 (SSE-S3).

enkripsi di sisi server

Jika Anda memilih opsi ini, maka ketika tugas ETL menulis ke Amazon S3, data dienkripsi secara at rest dengan menggunakan enkripsi SSE-S3. Baik target data Amazon S3 Anda dan data yang ditulis ke direktori sementara Amazon S3 , keduanya dienkripsi. Opsi ini diberikan sebagai parameter tugas. Untuk informasi selengkapnya, lihat Melindungi Data Menggunakan Enkripsi Sisi Server dengan Kunci Enkripsi Terkelola Amazon S3 (SSE-S3) di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon.

penting

Opsi ini diabaikan jika sebuah konfigurasi keamanan ditentukan.

Gunakan katalog data Glue sebagai metastore Hive

Pilih untuk menggunakan Katalog AWS Glue Data sebagai metastore Hive. IAM role yang digunakan untuk tugas harus memiliki izin glue:CreateDatabase. Sebuah basis data dengan nama “default” dibuat dalam Katalog Data jika tidak ada.

Koneksi

Pilih konfigurasi VPC untuk mengakses sumber data Amazon S3 yang terletak di cloud pribadi virtual (VPC) Anda. Anda dapat membuat dan mengelola koneksi Jaringan di AWS Glue. Untuk informasi selengkapnya, lihat Menghubungkan ke data.

Perpustakaan

Jalur pustaka Python, Jalur Dependen, dan JARs jalur file yang direferensikan

Tentukan opsi ini jika skrip Anda memerlukannya. Anda dapat menentukan path Amazon S3 yang dipisahkan koma untuk pilihan ini ketika Anda menentukan tugas. Anda dapat mengganti path ini ketika Anda menjalankan tugas. Untuk informasi selengkapnya, lihat Menyediakan skrip kustom Anda sendiri.

Parameter Tugas

Satu set pasangan nilai-kunci yang diberikan sebagai parameter bernama untuk skrip. Ini adalah nilai default yang digunakan ketika skrip dijalankan, tetapi Anda dapat menimpanya di pemicu atau ketika Anda menjalankan tugas. Anda harus memberikan prefiks pada nama kunci dengan --; misalnya: --myKey. Anda meneruskan parameter pekerjaan sebagai peta saat menggunakan AWS Command Line Interface.

Sebagai contoh, lihat parameter Python di Melewati dan mengakses parameter Python di AWS Glue.

Tanda

Tandai tugas Anda dengan Kunci tag dan opsional Nilai tag. Setelah kunci tag dibuat, mereka hanya bisa dibaca. Gunakan tag ke sumber daya Anda untuk membantu mengatur dan mengidentifikasi sumber daya tersebut. Untuk informasi selengkapnya, lihat AWS tag di AWS Glue.

Pembatasan untuk pekerjaan yang mengakses tabel terkelola Lake Formation

Ingatlah catatan dan batasan berikut saat membuat pekerjaan yang membaca dari atau menulis ke tabel yang dikelola oleh AWS Lake Formation:

Fitur berikut tidak didukung dalam pekerjaan yang mengakses tabel dengan filter tingkat sel:
- Bookmark Job dan eksekusi terbatas
- Predikat push-down
- Predikat partisi katalog sisi server
- enableUpdateCatalog

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Spark dan pekerjaan PySpark

Mengedit skrip Spark