Memantau Step Functions Menggunakan CloudWatch - AWS Step Functions

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memantau Step Functions Menggunakan CloudWatch

Pemantauan adalah bagian penting dari menjaga keandalan, ketersediaan, dan kinerja AWS Step Functions dan AWS solusi Anda. Anda harus mengumpulkan sebanyak mungkin data pemantauan dari AWS layanan yang Anda gunakan sehingga Anda dapat men-debug kegagalan multi-titik. Namun sebelum mulai memantau Step Functions, Anda harus membuat rencana pemantauan yang mencakup jawaban atas pertanyaan berikut:

  • Apa tujuan pemantauan Anda?

  • Sumber daya apa yang akan Anda pantau?

  • Seberapa sering Anda akan memantau sumber daya ini?

  • Alat pemantauan apa yang akan Anda gunakan?

  • Siapa yang akan melakukan tugas pemantauan?

  • Siapa yang harus diberi tahu saat terjadi kesalahan?

Langkah selanjutnya adalah menetapkan dasar untuk kinerja normal di lingkungan Anda. Untuk melakukannya, ukur performa di berbagai waktu dan dalam syarat beban yang berbeda. Saat Anda memantau Step Functions, Anda harus mempertimbangkan untuk menyimpan data pemantauan historis. Data tersebut memberikan dasar untuk membandingkan data performa saat ini, mengidentifikasi pola performa normal dan anomali performa, dan merancang cara untuk mengatasi masalah.

Misalnya, dengan Step Functions, Anda dapat memantau berapa banyak aktivitas atau AWS Lambda tugas yang gagal karena batas waktu detak jantung. Ketika performa berada di luar garis dasar yang telah ditetapkan, Anda mungkin harus mengubah interval waktu Anda.

Untuk menetapkan acuan dasar, Anda harus, setidaknya, memantau metrik berikut:

  • ActivitiesStarted

  • ActivitiesTimedOut

  • ExecutionsStarted

  • ExecutionsTimedOut

  • LambdaFunctionsStarted

  • LambdaFunctionsTimedOut

Bagian berikut menjelaskan metrik yang disediakan Step Functions ke Amazon CloudWatch. Anda dapat menggunakan metrik ini untuk melacak aktivitas dan mesin status serta mengatur alarm pada nilai ambang batas. Anda dapat melihat metrik menggunakan. AWS Management Console

Metrik yang melaporkan interval waktu

Beberapa CloudWatch metrik Step Functions adalah interval waktu, selalu diukur dalam milidetik. Metrik ini umumnya sesuai dengan tahapan eksekusi Anda yang dapat diatur mesin status, aktivitas, dan timeout fungsi Lambda, dengan nama deskriptif.

Misalnya, metrik ActivityRunTime mengukur waktu yang dibutuhkan untuk suatu aktivitas selesai setelah mulai mengeksekusi. Anda dapat menetapkan nilai timeout untuk periode waktu yang sama.

Di CloudWatch konsol, Anda bisa mendapatkan hasil terbaik jika Anda memilih rata-rata sebagai statistik tampilan untuk metrik interval waktu.

Metrik yang melaporkan hitungan

Beberapa CloudWatch metrik Step Functions melaporkan hasil sebagai hitungan. Misalnya, ExecutionsFailed mencatat jumlah eksekusi mesin status yang gagal.

Step Functions memancarkan dua ExecutionsStarted metrik untuk setiap eksekusi mesin status. Hal ini menyebabkan SampleCountstatistik ExecutionsStarted metrik menunjukkan nilai 2 untuk setiap eksekusi mesin status. SampleCount Statistik menunjukkan ExecutionStarted=1 dan ExecutionStarted=0 kapan eksekusi selesai.

Tip

Sebaiknya pilih Jumlah sebagai statistik tampilan untuk metrik yang melaporkan hitungan di CloudWatch konsol.

Metrik eksekusi

AWS/StatesNamespace menyertakan metrik berikut untuk semua eksekusi Step Functions. Ini adalah metrik tanpa dimensi yang berlaku di seluruh akun Anda di suatu wilayah.

Metrik Deskripsi
OpenExecutionCount

Perkiraan jumlah eksekusi yang saat ini terbuka —alur kerja yang sedang berlangsung di akun Anda.

Tujuannya adalah untuk memberikan wawasan tentang kapan alur kerja Anda mendekati batas eksekusi maksimum, untuk menghindari ExecutionLimitExceededkesalahan saat memanggil StartExecution atau RedriveExecution untuk Alur Kerja Standar.

OpenExecutionCountadalah perkiraan jumlah alur kerja terbuka. Metrik ini akan lebih rendah dari jumlah alur kerja berjalan yang diamati. Menjalankan jumlah alur kerja terbuka yang lebih rendah dari 10.000 dapat menunjukkan nol eksekusi terbuka. Agar alarm dapat memberi tahu jika Anda mendekati AndaOpenExecutionLimit, sebaiknya gunakan statistik Maksimum dengan ambang 100K atau lebih tinggi karena batas alur kerja terbuka default adalah 1.000.000 eksekusi.

OpenExecutionLimit

Jumlah maksimum eksekusi terbuka. Untuk informasi selengkapnya, lihat Kuota yang terkait dengan akun.

Batas ini tidak berlaku untuk Alur Kerja Ekspres.

Metrik eksekusi untuk mesin status dengan versi atau alias

Ketika Anda menjalankan eksekusi mesin status dengan versi atau alias, Step Functions memancarkan metrik berikut. ExecutionThrottledMetrik hanya akan dipancarkan dalam kasus eksekusi terbatas. Metrik ini akan mencakup a StateMachineArn untuk mengidentifikasi mesin status tertentu.

Metrik Deskripsi
ExecutionTime Interval, dalam milidetik, antara waktu eksekusi dimulai dan waktu ditutup.
ExecutionThrottled Jumlah StateEntered acara dan percobaan ulang yang telah dibatasi. Hal ini terkait dengan throttling StateTransition. Untuk informasi selengkapnya, lihat Kuota terkait throttling status.
ExecutionsAborted Jumlah eksekusi yang dibatalkan atau dihentikan.
ExecutionsFailed Jumlah eksekusi yang gagal.
ExecutionsStarted Jumlah eksekusi yang dimulai.
ExecutionsSucceeded Jumlah eksekusi yang berhasil diselesaikan.
ExecutionsTimedOut Jumlah eksekusi yang habis waktu karena alasan apa pun.

Metrik eksekusi untuk Alur Kerja Ekspres

AWS/StatesNamespace menyertakan metrik berikut untuk eksekusi Step Functions Express Workflows'.

Metrik Deskripsi
ExpressExecutionMemory

Total memori yang dikonsumsi oleh Alur Kerja Ekspres.

ExpressExecutionBilledDuration

Durasi di mana Alur Kerja Ekspres dibebankan.

ExpressExecutionBilledMemory

Jumlah memori yang dikonsumsi yang mengisi Alur Kerja Ekspres.

Redrivemetrik eksekusi untuk Alur Kerja Standar

Saat Anda redrivemelakukan eksekusi mesin status, Step Functions memancarkan metrik berikut.

Untuk semua redriven eksekusi, Executions* metrik dipancarkan. Misalnya, katakanlah redriven eksekusi dibatalkan. Eksekusi ini akan memancarkan titik data bukan nol untuk keduanya dan. RedrivenExecutionsAborted ExecutionsAborted

Metrik Deskripsi
ExecutionsRedriven Jumlah redriven eksekusi.
RedrivenExecutionsAborted Jumlah redriven eksekusi yang dibatalkan atau dihentikan.
RedrivenExecutionsTimedOut Jumlah redriven eksekusi yang habis waktu karena alasan apa pun.
RedrivenExecutionsSucceeded Jumlah redriven eksekusi yang berhasil diselesaikan.
RedrivenExecutionsFailed Jumlah redriven eksekusi yang gagal.

Dimensi untuk metrik eksekusi Step Functions

Dimensi Deskripsi
StateMachineArn

Amazon Resource Name (ARN) mesin status untuk eksekusi yang dimaksud.

Dimensi untuk eksekusi dengan versi

Dimensi Deskripsi
StateMachineArn

Nama Sumber Daya Amazon (ARN) dari mesin negara yang eksekusinya dimulai oleh versi.

Version

Versi mesin negara digunakan untuk memulai eksekusi.

Dimensi untuk eksekusi dengan alias

Dimensi Deskripsi
StateMachineArn

Nama Sumber Daya Amazon (ARN) dari mesin negara yang eksekusinya dimulai dengan alias.

Alias

Alias mesin negara digunakan untuk memulai eksekusi.

Metrik jumlah sumber daya untuk versi dan alias

AWS/StatesNamespace menyertakan metrik berikut untuk jumlah versi dan alias mesin status.

Metrik Deskripsi
AliasCount

Jumlah alias yang dibuat untuk mesin negara.

Anda dapat membuat hingga 100 alias untuk setiap mesin negara.

VersionCount

Jumlah versi yang diterbitkan untuk mesin negara.

Anda dapat mempublikasikan hingga 1000 versi mesin negara.

Dimensi untuk metrik jumlah sumber daya untuk versi dan alias

Dimensi Deskripsi
ResourceArn

Nama Sumber Daya Amazon (ARN) dari mesin negara bagian dengan versi atau alias.

Metrik Aktivitas

Namespace AWS/States mencakup metrik berikut untuk aktivitas Step Functions.

Metrik Deskripsi
ActivityRunTime Interval, dalam milidetik, antara waktu aktivitas dimulai dan waktu ditutup.
ActivityScheduleTime Interval, dalam milidetik, di mana aktivitas tetap dalam status jadwal.
ActivityTime Interval, dalam milidetik, antara waktu aktivitas dijadwalkan dan waktu ditutup.
ActivitiesFailed Jumlah kegiatan yang gagal.
ActivitiesHeartbeatTimedOut Jumlah aktivitas yang time out karena batas waktu detak jantung.
ActivitiesScheduled Jumlah kegiatan yang dijadwalkan.
ActivitiesStarted Jumlah kegiatan yang dimulai.
ActivitiesSucceeded Jumlah kegiatan yang berhasil diselesaikan.
ActivitiesTimedOut Jumlah kegiatan yang time out pada penutupan.

Dimensi untuk Metrik Aktivitas Step Functions

Dimensi Deskripsi

ActivityArn

ARN aktivitas.

Metrik Fungsi Lambda

Namespace AWS/States mencakup metrik berikut untuk fungsi Lambda Step Functions.

Metrik Deskripsi
LambdaFunctionRunTime Interval, dalam milidetik, antara waktu fungsi Lambda dimulai dan waktu ditutup.
LambdaFunctionScheduleTime Interval, dalam milidetik, di mana fungsi Lambda tetap dalam status jadwal.
LambdaFunctionTime Interval, dalam milidetik, antara waktu fungsi Lambda dijadwalkan dan waktu ditutup.
LambdaFunctionsFailed Jumlah fungsi Lambda yang gagal.
LambdaFunctionsScheduled Jumlah fungsi Lambda terjadwal.
LambdaFunctionsStarted Jumlah fungsi Lambda yang dimulai.
LambdaFunctionsSucceeded Jumlah fungsi Lambda yang berhasil diselesaikan.
LambdaFunctionsTimedOut Jumlah fungsi Lambda yang habis waktu tutup.

Dimensi untuk Metrik Fungsi Lambda Step Functions

Dimensi Deskripsi

LambdaFunctionArn

ARN fungsi Lambda.

catatan

Metrik Fungsi Lambda dipancarkan untuk status Tugas yang menentukan ARN fungsi Lambda di kolom Resource. Status tugas yang menggunakan "Resource": "arn:aws:states:::lambda:invoke" memancarkan Metrik Integrasi Layanan sebagai gantinya. Untuk informasi selengkapnya, lihat Panggil Lambda dengan Step Functions.

Metrik Integrasi Layanan

Namespace AWS/States mencakup metrik berikut untuk integrasi layanan Step Functions. Untuk informasi selengkapnya, lihat Menggunakan AWS Step Functions dengan layanan lain.

Metrik Deskripsi
ServiceIntegrationRunTime Interval, dalam milidetik, antara waktu Tugas Layanan dimulai dan waktu ditutup.
ServiceIntegrationScheduleTime Interval, dalam milidetik, di mana Tugas Layanan tetap dalam status jadwal.
ServiceIntegrationTime Interval, dalam milidetik, antara waktu Tugas Layanan dijadwalkan dan waktu ditutup.
ServiceIntegrationsFailed Jumlah Tugas Layanan yang gagal.
ServiceIntegrationsScheduled Jumlah Tugas Layanan yang dijadwalkan.
ServiceIntegrationsStarted Jumlah Tugas Layanan yang dimulai.
ServiceIntegrationsSucceeded Jumlah Tugas Layanan yang berhasil diselesaikan.
ServiceIntegrationsTimedOut Jumlah Tugas Layanan yang habis waktu tutup.

Dimensi untuk Metrik Integrasi Layanan Step Functions

Dimensi Deskripsi

ServiceIntegrationResourceArn

Sumber daya ARN dari layanan terintegrasi.

Metrik Layanan

Namespace AWS/States mencakup metrik berikut untuk layanan Step Functions.

Metrik Deskripsi
ThrottledEvents

Jumlah permintaan yang telah dibatasi.

ProvisionedBucketSize

Hitungan permintaan yang tersedia per detik.

ProvisionedRefillRate

Hitungan permintaan per detik yang diizinkan masuk ke dalam ember.

ConsumedCapacity

Hitungan permintaan per detik.

Dimensi untuk Metrik Layanan Step Functions

Dimensi Deskripsi

ServiceMetric

Memfilter data untuk menampilkan metrik Transisi Status.

Metrik API

Namespace AWS/States mencakup metrik berikut untuk API Step Functions.

Metrik Deskripsi
ThrottledEvents

Jumlah permintaan yang telah dibatasi.

ProvisionedBucketSize

Hitungan permintaan yang tersedia per detik.

ProvisionedRefillRate

Hitungan permintaan per detik yang diizinkan masuk ke dalam ember.

ConsumedCapacity

Hitungan permintaan per detik.

Dimensi untuk Metrik API Step Functions

Dimensi Deskripsi

APIName

Memfilter data ke API dari nama API yang ditentukan.

Pengiriman CloudWatch metrik upaya terbaik

Metrik CloudWatch diberikan dengan dasar upaya terbaik.

Kelengkapan dan ketepatan waktu metrik tidak dijamin. Titik data untuk permintaan tertentu mungkin dikembalikan dengan stempel waktu yang lebih lambat daripada ketika permintaan tersebut sebenarnya diproses. Titik data selama satu menit mungkin tertunda sebelum tersedia CloudWatch, atau mungkin tidak dikirimkan sama sekali. CloudWatchmetrik permintaan memberi Anda gambaran tentang eksekusi mesin status dalam waktu hampir nyata. Ini tidak dimaksudkan untuk menjadi akuntansi lengkap dari semua metrik terkait eksekusi.

Ini mengikuti sifat upaya terbaik dari fitur ini bahwa laporan yang tersedia di Dasbor Manajemen Penagihan & Biaya mungkin mencakup satu atau lebih permintaan akses yang tidak muncul dalam metrik eksekusi.