Pemantauan dengan metrik AWS Glue Observabilitas - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemantauan dengan metrik AWS Glue Observabilitas

catatan

AWS GlueMetrik observabilitas tersedia di AWS Glue versi 4.0 dan yang lebih baru.

Gunakan metrik AWS Glue Observability untuk menghasilkan wawasan tentang apa yang terjadi di dalam pekerjaan Apache Spark Anda AWS Glue untuk meningkatkan triaging dan analisis masalah. Metrik observabilitas divisualisasikan melalui Amazon CloudWatch dasbor dan dapat digunakan untuk membantu melakukan analisis akar penyebab kesalahan dan untuk mendiagnosis kemacetan kinerja. Anda dapat mengurangi waktu yang dihabiskan masalah debugging dalam skala besar sehingga Anda dapat fokus pada penyelesaian masalah lebih cepat dan lebih efektif.

AWS GlueObservabilitas menyediakan Amazon CloudWatch metrik yang dikategorikan dalam empat kelompok berikut:

  • Keandalan (yaitu, Kelas Kesalahan) — dengan mudah mengidentifikasi alasan kegagalan yang paling umum pada rentang waktu tertentu yang mungkin ingin Anda atasi.

  • Kinerja (yaitu, Skewness) - mengidentifikasi hambatan kinerja dan menerapkan teknik penyetelan. Misalnya, ketika Anda mengalami penurunan kinerja karena kemiringan pekerjaan, Anda mungkin ingin mengaktifkan Eksekusi Kueri Adaptif Spark dan menyempurnakan ambang gabungan miring.

  • Throughput (yaitu, per sumber/sink throughput) — memantau tren pembacaan dan penulisan data. Anda juga dapat mengonfigurasi Amazon CloudWatch alarm untuk anomali.

  • Pemanfaatan Sumber Daya (yaitu, pekerja, memori dan pemanfaatan disk) — secara efisien menemukan pekerjaan dengan pemanfaatan kapasitas rendah. Anda mungkin ingin mengaktifkan AWS Glue auto-scaling untuk pekerjaan tersebut.

Memulai dengan metrik AWS Glue Observability

catatan

Metrik baru diaktifkan secara default di AWS Glue Studio konsol.

Untuk mengonfigurasi metrik observabilitas di: AWS Glue Studio
  1. Masuk ke AWS Glue konsol dan pilih pekerjaan ETL dari menu konsol.

  2. Pilih pekerjaan dengan mengklik nama pekerjaan di bagian Pekerjaan Anda.

  3. Pilih tab Detail tugas.

  4. Gulir ke bawah dan pilih Advanced properties, lalu Job observability metrics.

    Tangkapan layar menunjukkan tab Rincian pekerjaan Properti lanjutan. Opsi metrik observabilitas Job disorot.
Untuk mengaktifkan metrik AWS Glue Observability menggunakan: AWS CLI
  • Tambahkan ke --default-arguments peta kunci-nilai berikut dalam file JSON masukan:

    --enable-observability-metrics, true

Menggunakan AWS Glue observabilitas

Karena metrik AWS Glue observabilitas disediakan Amazon CloudWatch, Anda dapat menggunakan Amazon CloudWatch konsol, SDK AWS CLI, atau API untuk menanyakan titik data metrik observabilitas. Lihat Menggunakan Glue Observability untuk memantau pemanfaatan sumber daya guna mengurangi biaya untuk contoh kasus penggunaan saat menggunakan metrik AWS Glue observabilitas.

Menggunakan AWS Glue observabilitas di konsol Amazon CloudWatch

Untuk menanyakan dan memvisualisasikan metrik di konsol: Amazon CloudWatch
  1. Buka Amazon CloudWatch konsol dan pilih Semua metrik.

  2. Di bawah ruang nama khusus, pilih. AWS Glue

  3. Pilih Metrik Observabilitas Pekerjaan, Metrik Observabilitas Per Sumber, atau Metrik Observabilitas Per Wastafel.

  4. Cari nama metrik tertentu, nama pekerjaan, ID jalankan pekerjaan, dan pilih.

  5. Di bawah tab Metrik grafik, konfigurasikan statistik pilihan Anda, periode, dan opsi lainnya.

    Tangkapan layar menunjukkan grafik Amazon CloudWatch konsol dan metrik.
Untuk menanyakan metrik Observabilitas menggunakan AWS CLI:
  1. Buat file JSON definisi metrik dan ganti your-Glue-job-name dan your-Glue-job-run-id dengan milik Anda.

    $ cat multiplequeries.json [ { "Id": "avgWorkerUtil_0", "MetricStat": { "Metric": { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-A>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-A>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } }, { "Id": "avgWorkerUtil_1", "MetricStat": { "Metric": { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-B>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-B>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } } ]
  2. Jalankan perintah get-metric-data:

    $ aws cloudwatch get-metric-data --metric-data-queries file: //multiplequeries.json \ --start-time '2023-10-28T18: 20' \ --end-time '2023-10-28T19: 10' \ --region us-east-1 { "MetricDataResults": [ { "Id": "avgWorkerUtil_0", "Label": "<your-label-for-A>", "Timestamps": [ "2023-10-28T18:20:00+00:00" ], "Values": [ 0.06718750000000001 ], "StatusCode": "Complete" }, { "Id": "avgWorkerUtil_1", "Label": "<your-label-for-B>", "Timestamps": [ "2023-10-28T18:50:00+00:00" ], "Values": [ 0.5959183673469387 ], "StatusCode": "Complete" } ], "Messages": [] }

Metrik observabilitas

AWS GlueProfil observabilitas dan mengirimkan metrik berikut ke Amazon CloudWatch setiap 30 detik, dan beberapa metrik ini dapat terlihat di Halaman Pemantauan AWS Glue Studio Job Runs.

Metrik Deskripsi Kategori
lem.driver.skewness.stage

Kategori Metrik: job_performance

Spark stage eksekusi Skewness: metrik ini menangkap kecondongan eksekusi, yang mungkin disebabkan oleh kemiringan data input atau oleh transformasi (mis., Skewed join). Nilai metrik ini jatuh ke dalam kisaran [0, tak terhingga [, di mana 0 berarti rasio waktu eksekusi tugas maksimum terhadap median, di antara semua tugas dalam tahap kurang dari faktor kemiringan tahap tertentu. Faktor kemiringan tahap default adalah `5` dan ditimpa melalui spark conf: spark.metrics.conf.driver.source.glue.jobPerformance.SkewnessFactor

Nilai kemiringan tahap 1 berarti rasio dua kali faktor kemiringan tahap.

Nilai stage skewnewss diperbarui setiap 30 detik untuk mencerminkan kemiringan saat ini. Nilai pada akhir tahap mencerminkan kemiringan tahap akhir.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (job_performance)

Statistik yang Valid: Rata-rata, Maksimum, Minimum, Persentil

Unit: Jumlah

job_kinerja
lem.driver.skewness.job

Kategori Metrik: job_performance

Job skewness adalah rata-rata tertimbang dari kemiringan tahap pekerjaan. Rata-rata tertimbang memberi bobot lebih pada tahapan yang membutuhkan waktu lebih lama untuk dieksekusi. Ini untuk menghindari kasus sudut ketika tahap yang sangat miring sebenarnya berjalan untuk waktu yang sangat singkat relatif terhadap tahap lain (dan dengan demikian kemiringannya tidak signifikan untuk perforamnce pekerjaan secara keseluruhan dan tidak sepadan dengan upaya untuk mencoba mengatasi kemiringannya).

Metrik ini diperbarui setelah menyelesaikan setiap tahap, dan dengan demikian nilai terakhir mencerminkan kemiringan pekerjaan keseluruhan yang sebenarnya.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (job_performance)

Statistik yang Valid: Rata-rata, Maksimum, Minimum, Persentil

Unit: Jumlah

job_kinerja
lem.berhasil.semua

Kategori Metrik: kesalahan

Jumlah total pekerjaan yang berhasil berjalan, untuk melengkapi gambaran kategori kegagalan

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (count), dan ObservabilityGroup (error)

Statistik yang Valid: SUM

Unit: Jumlah

kesalahan
lem.error.all

Kategori Metrik: kesalahan

Jumlah total kesalahan menjalankan pekerjaan, untuk melengkapi gambaran kategori kegagalan

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (count), dan ObservabilityGroup (error)

Statistik yang Valid: SUM

Unit: Jumlah

kesalahan
lem.error. [kategori kesalahan]

Kategori Metrik: kesalahan

Ini sebenarnya adalah satu set metrik, yang diperbarui hanya ketika pekerjaan berjalan gagal. Kategorisasi kesalahan membantu dengan triaging dan debugging. Ketika pekerjaan berjalan gagal, kesalahan yang menyebabkan kegagalan dikategorikan dan metrik kategori kesalahan yang sesuai disetel ke 1. Ini membantu untuk melakukan analisis kegagalan dari waktu ke waktu, serta atas semua analisis kesalahan pekerjaan untuk mengidentifikasi kategori kegagalan yang paling umum untuk mulai mengatasinya. AWS Gluememiliki 28 kategori kesalahan, termasuk kategori kesalahan OUT_OF_MEMORY (driver dan eksekutor), PERMISSION, SYNTAX dan THROTTLING. Kategori kesalahan juga mencakup kategori kesalahan KOMPILASI, PELUNCURAN, dan TIMEOUT.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (count), dan ObservabilityGroup (error)

Statistik yang Valid: SUM

Unit: Jumlah

kesalahan
Glue.driver.workerUtilization

Kategori Metrik: resource_utilization

Persentase pekerja yang dialokasikan yang benar-benar digunakan. Jika tidak bagus, penskalaan otomatis dapat membantu.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata, Maksimum, Minimum, Persentil

Unit: Persentase

resource_utilization
lem.driver.memory.heap. [tersedia | digunakan]

Kategori Metrik: resource_utilization

Memori heap driver yang tersedia/digunakan selama pekerjaan dijalankan. Ini membantu untuk memahami tren penggunaan memori, terutama dari waktu ke waktu, yang dapat membantu menghindari potensi kegagalan, selain men-debug kegagalan terkait memori.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Bita

resource_utilization
lem.driver.memory.heap.used.percentage

Kategori Metrik: resource_utilization

Pengemudi menggunakan memori heap (%) selama pekerjaan dijalankan. Ini membantu untuk memahami tren penggunaan memori, terutama dari waktu ke waktu, yang dapat membantu menghindari potensi kegagalan, selain men-debug kegagalan terkait memori.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Persentase

resource_utilization
lem.driver.memory.non-heap. [tersedia | digunakan]

Kategori Metrik: resource_utilization

Pengemudi yang tersedia/menggunakan memori non-heap selama pekerjaan dijalankan. Ini membantu untuk memahami tren penggunaan memori, terutama dari waktu ke waktu, yang dapat membantu menghindari potensi kegagalan, selain men-debug kegagalan terkait memori.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Bita

resource_utilization
lem.driver.memory.non-heap.used.percentage

Kategori Metrik: resource_utilization

Pengemudi menggunakan memori non-heap (%) selama pekerjaan dijalankan. Ini membantu untuk memahami tren penggunaan memori, terutama dari waktu ke waktu, yang dapat membantu menghindari potensi kegagalan, selain men-debug kegagalan terkait memori.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Persentase

resource_utilization
lem.driver.memory.total. [tersedia | digunakan]

Kategori Metrik: resource_utilization

Pengemudi tersedia/menggunakan memori total selama pekerjaan dijalankan. Ini membantu untuk memahami tren penggunaan memori, terutama dari waktu ke waktu, yang dapat membantu menghindari potensi kegagalan, selain men-debug kegagalan terkait memori.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Bita

resource_utilization
lem.driver.memory.total.used.percentage

Kategori Metrik: resource_utilization

Pengemudi menggunakan (%) total memori selama menjalankan pekerjaan. Ini membantu untuk memahami tren penggunaan memori, terutama dari waktu ke waktu, yang dapat membantu menghindari potensi kegagalan, selain men-debug kegagalan terkait memori.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Persentase

resource_utilization
Lek.all.memory.heap. [tersedia | digunakan]

Kategori Metrik: resource_utilization

Memori heap eksekutor yang tersedia/digunakan. SEMUA berarti semua pelaksana.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Bita

resource_utilization
Glue.all.memory.heap.used.percentage

Kategori Metrik: resource_utilization

Memori heap (%) yang digunakan para eksekutor. SEMUA berarti semua pelaksana.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Persentase

resource_utilization
Lek.all.memory.non-heap. [tersedia | digunakan]

Kategori Metrik: resource_utilization

Memori non-heap eksekutor yang tersedia/digunakan. SEMUA berarti semua pelaksana.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Bita

resource_utilization
Glue.all.memory.non-heap.used.percentage

Kategori Metrik: resource_utilization

Eksekutor menggunakan (%) memori non-heap. SEMUA berarti semua pelaksana.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Persentase

resource_utilization
Lek.all.memory.total. [tersedia | digunakan]

Kategori Metrik: resource_utilization

Memori total yang tersedia/digunakan eksekutor. SEMUA berarti semua pelaksana.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Bita

resource_utilization
Glue.all.memory.total.used.percentage

Kategori Metrik: resource_utilization

Eksekutor menggunakan (%) total memori. SEMUA berarti semua pelaksana.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Persentase

resource_utilization
lem.driver.disk. [tersedia_GB | digunakan_GB]

Kategori Metrik: resource_utilization

Ruang disk yang tersedia/digunakan pengemudi selama menjalankan pekerjaan. Ini membantu untuk memahami tren penggunaan disk, terutama dari waktu ke waktu, yang dapat membantu menghindari potensi kegagalan, selain debugging tidak cukup kegagalan terkait ruang disk.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Satuan: Gigabytes

resource_utilization
lem.driver.disk.used.percentage]

Kategori Metrik: resource_utilization

Ruang disk yang tersedia/digunakan pengemudi selama menjalankan pekerjaan. Ini membantu untuk memahami tren penggunaan disk, terutama dari waktu ke waktu, yang dapat membantu menghindari potensi kegagalan, selain debugging tidak cukup kegagalan terkait ruang disk.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Persentase

resource_utilization
Lek.all.disk. [tersedia_GB | digunakan_GB]

Kategori Metrik: resource_utilization

Ruang disk yang tersedia/digunakan para eksekutor. SEMUA berarti semua pelaksana.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Satuan: Gigabytes

resource_utilization
Glue.all.disk.used.percentage

Kategori Metrik: resource_utilization

Ruang disk yang tersedia/digunakan/digunakan (%) eksekutor. SEMUA berarti semua pelaksana.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), dan ObservabilityGroup (resource_utilization)

Statistik yang Valid: Rata-rata

Unit: Persentase

resource_utilization
Lek.driver.bytesRead

Kategori Metrik: throughput

Jumlah byte yang dibaca per sumber input dalam pekerjaan ini dijalankan, serta untuk SEMUA sumber. Ini membantu memahami volume data dan perubahannya dari waktu ke waktu, yang membantu mengatasi masalah seperti kemiringan data.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), (resource_utilization), dan Source ObservabilityGroup (lokasi data sumber)

Statistik yang Valid: Rata-rata

Unit: Bita

throughput
lem.driver. [RecordsRead | FilesRead]

Kategori Metrik: throughput

Jumlah rekaman/file yang dibaca per sumber input dalam pekerjaan ini dijalankan, serta untuk SEMUA sumber. Ini membantu memahami volume data dan perubahannya dari waktu ke waktu, yang membantu mengatasi masalah seperti kemiringan data.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), (resource_utilization), dan Source ObservabilityGroup (lokasi data sumber)

Statistik yang Valid: Rata-rata

Unit: Jumlah

throughput
lem.driver.partitionsRead

Kategori Metrik: throughput

Jumlah partisi yang dibaca per sumber input Amazon S3 dalam pekerjaan ini dijalankan, serta untuk SEMUA sumber.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), (resource_utilization), dan Source ObservabilityGroup (lokasi data sumber)

Statistik yang Valid: Rata-rata

Unit: Jumlah

throughput
Lek.driver.bytesWrittten

Kategori Metrik: throughput

Jumlah byte yang ditulis per output tenggelam dalam pekerjaan ini, serta untuk SEMUA sink. Ini membantu memahami volume data dan bagaimana perkembangannya dari waktu ke waktu, yang membantu mengatasi masalah seperti kemiringan pemrosesan.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), ObservabilityGroup (resource_utilization), dan Sink (lokasi data sink)

Statistik yang Valid: Rata-rata

Unit: Bita

throughput
lem.driver. [RecordsWritten | FilesWritten]

Kategori Metrik: throughput

Jumlah catatan/file yang ditulis per output tenggelam dalam pekerjaan ini, serta untuk SEMUA sink. Ini membantu memahami volume data dan bagaimana perkembangannya dari waktu ke waktu, yang membantu mengatasi masalah seperti kemiringan pemrosesan.

Dimensi yang valid: JobName (nama AWS Glue Job), JobRunId ( JobRun ID. atau ALL), Type (gauge), ObservabilityGroup (resource_utilization), dan Sink (lokasi data sink)

Statistik yang Valid: Rata-rata

Unit: Jumlah

throughput

Kategori kesalahan

Kategori kesalahan Deskripsi
COMPILATION_ERROR Kesalahan muncul selama kompilasi kode Scala.
CONNECTION_ERROR Kesalahan muncul saat menghubungkan ke layanan/layanan host/database jarak jauh, dll.
DISK_NO_SPACE_ERROR

Kesalahan muncul ketika tidak ada ruang tersisa di disk pada driver/executor.

OUT_OF_MEMORY_ERROR Kesalahan muncul ketika tidak ada ruang yang tersisa di memori pada driver/executor.
IMPORT_ERROR Kesalahan muncul saat dependensi impor.
INVALID_ARGUMENT_ERROR Kesalahan muncul ketika argumen input tidak valid/ilegal.
PERMISSION_ERROR Kesalahan muncul ketika tidak memiliki izin untuk layanan, data, dll.
RESOURCE_NOT_FOUND_ERROR

Kesalahan muncul ketika data, lokasi, dll tidak keluar.

QUERY_ERROR Kesalahan muncul dari eksekusi kueri Spark SQL.
SYNTAX_ERROR Kesalahan muncul ketika ada kesalahan sintaks dalam skrip.
THROTTLING_ERROR Kesalahan muncul saat menekan batasan konkurensi layanan atau mengeksekusi batas kuota layanan.
DATA_LAKE_FRAMEWORK_ERROR Kesalahan muncul dari kerangka data lake yang AWS Glue didukung asli seperti Hudi, Iceberg, dll.
UNSUPPORTED_OPERATION_ERROR Kesalahan muncul saat melakukan operasi yang tidak didukung.
RESOURCES_ALREADY_EXISTS_ERROR Kesalahan muncul ketika sumber daya yang akan dibuat atau ditambahkan sudah ada.
GLUE_INTERNAL_SERVICE_ERROR Kesalahan muncul ketika ada masalah layanan AWS Glue internal.
GLUE_OPERATION_TIMEOUT_ERROR Kesalahan muncul saat AWS Glue operasi habis waktu.
GLUE_VALIDATION_ERROR Kesalahan muncul ketika nilai yang diperlukan tidak dapat divalidasi untuk AWS Glue pekerjaan.
GLUE_JOB_BOOKMARK_VERSION_MISMATCH_ERROR Kesalahan muncul ketika pekerjaan yang sama menunjukkan keranjang sumber yang sama dan menulis ke tujuan yang sama/berbeda secara bersamaan (konkurensi> 1)
LAUNCH_ERROR Kesalahan muncul selama fase peluncuran AWS Glue pekerjaan.
DYNAMODB_ERROR Kesalahan umum muncul dari Amazon DynamoDB layanan.
GLUE_ERROR Kesalahan umum muncul dari AWS Glue layanan.
LAKEFORMATION_ERROR Kesalahan umum muncul dari AWS Lake Formation layanan.
REDSHIFT_ERROR Kesalahan umum muncul dari Amazon Redshift layanan.
S3_KESALAHAN Kesalahan Umum muncul dari layanan Amazon S3.
SYSTEM_EXIT_ERROR Kesalahan keluar sistem generik.
TIMEOUT_ERROR Kesalahan umum muncul ketika pekerjaan gagal karena waktu operasi habis.
UNCLASSIFIED_SPARK_ERROR Kesalahan umum muncul dari Spark.
UNCLASSIFIED_ERROR Kategori kesalahan default.

Batasan

catatan

glueContextharus diinisialisasi untuk mempublikasikan metrik.

Di Dimensi Sumber, nilainya adalah jalur Amazon S3 atau nama tabel, tergantung pada jenis sumbernya. Selain itu, jika sumbernya adalah JDBC dan opsi kueri digunakan, string kueri diatur dalam dimensi sumber. Jika nilainya lebih panjang dari 500 karakter, itu dipangkas dalam 500 karakter.Berikut ini adalah batasan dalam nilai:

  • Karakter non-ASCII akan dihapus.

  • <non-ASCII input>Jika nama sumber tidak mengandung karakter ASCII, itu dikonversi ke.

Keterbatasan dan pertimbangan untuk metrik throughput

  • DataFrame dan DataFrame berbasis DynamicFrame (misalnya JDBC, membaca dari parket di Amazon S3) didukung, namun, berbasis RDD DynamicFrame (misalnya membaca csv, json di Amazon S3, dll.) tidak didukung. Secara teknis, semua membaca dan menulis yang terlihat di Spark UI didukung.

  • recordsReadMetrik akan dipancarkan jika sumber data adalah tabel katalog dan formatnya adalah JSON, CSV, teks, atau Iceberg.

  • glue.driver.throughput.recordsWritten,glue.driver.throughput.bytesWritten, dan glue.driver.throughput.filesWritten metrik tidak tersedia dalam tabel JDBC dan Iceberg.

  • Metrik mungkin tertunda. Jika pekerjaan selesai dalam waktu sekitar satu menit, mungkin tidak ada metrik throughput di Metrik. Amazon CloudWatch