Mengkonfigurasi bagaimana CloudWatch alarm memperlakukan data yang hilang - Amazon CloudWatch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengkonfigurasi bagaimana CloudWatch alarm memperlakukan data yang hilang

Terkadang, tidak setiap titik data yang diharapkan untuk metrik dilaporkan CloudWatch. Sebagai contoh, hal ini dapat terjadi ketika koneksi terputus, server rusak, atau ketika metrik melaporkan data hanya secara sementara sesuai desain.

CloudWatch memungkinkan Anda menentukan cara memperlakukan titik data yang hilang saat mengevaluasi alarm. Hal ini akan membantu Anda untuk mengonfigurasi alarm agar statusnya beralih menjadi ALARM hanya jika sesuai dengan jenis data yang dipantau. Anda dapat menghindari peringatan palsu ketika data yang hilang tidak menunjukkan adanya masalah.

Mirip dengan bagaimana setiap alarm selalu berada di salah satu dari tiga negara bagian, setiap titik data spesifik dilaporkan CloudWatch termasuk dalam salah satu dari tiga kategori:

  • Bukan pelanggaran (dalam ambang batas)

  • Pelanggaran (melanggar ambang batas)

  • Hilang

Untuk setiap alarm, Anda dapat menentukan CloudWatch untuk memperlakukan titik data yang hilang sebagai salah satu dari berikut ini:

  • notBreaching – Titik data yang hilang diperlakukan sebagai "baik" dan berada dalam ambang batas,

  • breaching – Titik data yang hilang diperlakukan sebagai "buruk" dan melanggar ambang batas

  • ignore – Status alarm saat ini tetap dipertahankan

  • missing – Jika semua titik data dalam kisaran evaluasi alarm hilang, maka alarm akan beralih menjadi INSUFFIENT_DATA.

Pilihan terbaik tergantung pada jenis metrik dan tujuan alarm. Misalnya, jika Anda membuat alarm rollback aplikasi menggunakan metrik yang terus-menerus melaporkan data, Anda mungkin ingin memperlakukan titik data yang hilang sebagai pelanggaran, karena itu mungkin menunjukkan bahwa ada sesuatu yang salah. Namun demikian, untuk sebuah metrik yang menghasilkan titik data hanya ketika kesalahan terjadi, seperti ThrottledRequests di Amazon DynamoDB, Anda ingin memperlakukan data yang hilang sebagai notBreaching. Perilaku bawaannya adalah missing.

penting

Alarm yang dikonfigurasi pada metrik Amazon EC2 dapat memasukkan status INSUFFICIENT_DATA untuk sementara jika ada titik data metrik yang hilang. Ini jarang terjadi, tetapi dapat terjadi ketika pelaporan metrik terganggu, bahkan ketika instans Amazon EC2 sehat. Untuk alarm di metrik Amazon EC2 yang dikonfigurasi untuk menghentikan, menghentikan, mem-boot ulang, atau memulihkan tindakan, sebaiknya Anda mengonfigurasi alarm tersebut untuk memperlakukan data yang hilang missing sebagai, dan agar alarm ini dipicu hanya saat dalam status ALARM.

Memilih pilihan terbaik untuk alarm-alarm Anda akan mencegah perubahan kondisi alarm yang tidak perlu serta menyesatkan, dan juga akan menunjukkan kesehatan sistem Anda secara lebih akurat.

penting

Alarm yang mengevaluasi metrik di AWS/DynamoDB namespace default untuk mengabaikan data yang hilang. Anda dapat mengganti ini jika Anda memilih opsi yang berbeda untuk bagaimana alarm harus memperlakukan data yang hilang. Ketika sebuah metrik AWS/DynamoDB memiliki data yang hilang, alarm yang mengevaluasi metrik tersebut akan tetap berada dalam status saat ini.

Cara mengevaluasi status alarm ketika terjadi data hilang

Setiap kali alarm mengevaluasi apakah akan mengubah status, CloudWatch mencoba untuk mengambil jumlah titik data yang lebih tinggi daripada nomor yang ditentukan sebagai Periode Evaluasi. Jumlah pasti titik data yang berusaha diambil oleh CloudWatch bergantung pada lama periode alarm dan apakah didasarkan pada metrik dengan resolusi standar atau resolusi tinggi. Jangka waktu titik data yang berusaha diambil oleh CloudWatch adalah rangkaian evaluasi.

Setelah CloudWatch mengambil titik-titik data ini, hal berikut terjadi:

  • Jika tidak ada titik data dalam rentang evaluasi yang hilang, CloudWatch evaluasi alarm berdasarkan titik data terbaru yang dikumpulkan. Jumlah titik data yang dievaluasi setara dengan Periode Evaluasi untuk alarm tersebut. Titik data ekstra dari versi yang lebih jauh dalam rentang evaluasi tidak diperlukan dan akan diabaikan.

  • Jika beberapa titik data dalam rentang evaluasi hilang, tetapi jumlah total titik data yang ada yang berhasil diambil dari rentang evaluasi sama dengan atau lebih dari Periode Evaluasi alarm, CloudWatch evaluasi status alarm berdasarkan data nyata terbaru titik yang berhasil diambil, termasuk titik data tambahan yang diperlukan dari jauh ke belakang dalam rentang evaluasi. Dalam kasus ini, nilai yang Anda tetapkan untuk cara memperlakukan data yang hilang tidak diperlukan dan akan diabaikan.

  • Jika beberapa titik data dalam rentang evaluasi hilang, dan jumlah titik data aktual yang diambil lebih rendah dari jumlah Periode Evaluasi alarm, CloudWatch isi titik data yang hilang dengan hasil yang Anda tentukan untuk cara memperlakukan data yang hilang, dan kemudian mengevaluasi alarm. Namun, semua titik data nyata dalam rentang evaluasi termasuk dalam evaluasi. CloudWatch menggunakan titik data yang hilang hanya sesedikit mungkin.

catatan

Kasus khusus dari perilaku ini adalah bahwa CloudWatch alarm mungkin berulang kali mengevaluasi kembali set titik data terakhir untuk jangka waktu tertentu setelah metrik berhenti mengalir. Evaluasi ulang ini dapat menyebabkan status alarm berubah dan melaksanakan ulang tindakan, jika alarm telah berubah statusnya sesaat sebelum aliran metrik berhenti. Untuk mengurangi perilaku ini, Anda harus menggunakan periode yang lebih singkat.

Tabel berikut menggambarkan beberapa contoh perilaku evaluasi alarm. Pada tabel pertama, Datapoint untuk Alarm dan Periode Evaluasi keduanya 3. CloudWatch mengambil 5 titik data terbaru saat mengevaluasi alarm, jika beberapa dari 3 titik data terbaru hilang. 5 adalah rentang evaluasi untuk alarm.

Kolom 1 menunjukkan 5 titik data terbaru, karena rentang evaluasinya adalah 5. Titik data ini ditampilkan pada titik data terbaru di sebelah kanan. 0 adalah titik data yang tidak terjangkau, X adalah titik data yang dilanggar, dan - adalah titik data yang hilang.

Kolom 2 menunjukkan berapa banyak dari 3 titik data yang diperlukan yang hilang. Meskipun 5 titik data terbaru dievaluasi, hanya 3 (pengaturan untuk Periode Evaluasi) yang diperlukan untuk mengevaluasi status alarm. Jumlah titik data di Kolom 2 adalah jumlah titik data yang harus "diisi", dengan menggunakan pengaturan tentang cara memperlakukan data yang hilang.

Pada kolom 3-6, header kolom adalah nilai-nilai yang mungkin untuk cara memperlakukan data yang hilang. Baris-baris dalam kolom ini menunjukkan status alarm yang diatur untuk masing-masing cara yang memungkinkan untuk memperlakukan data yang hilang.

Titik data # titik data yang harus diisi HILANG ABAIKAN MELANGGAR TIDAK MELANGGAR

0 - X - X

0

OK

OK

OK

OK

0 - - - -

2

OK

OK

OK

OK

- - - - -

3

INSUFFICIENT_DATA

Mempertahankan status saat ini

ALARM

OK

0 X X - X

0

ALARM

ALARM

ALARM

ALARM

- - X - -

2

ALARM

Mempertahankan status saat ini

ALARM

OK

Pada baris kedua tabel sebelumnya, alarm tetap dalam status OK meskipun data yang hilang diperlakukan sebagai pelanggaran, karena satu titik data yang ada tidak melanggar, dan dievaluasi bersama dengan dua titik data yang hilang yang diperlakukan sebagai pelanggaran. Dalam evaluasi alarm yang berikutnya dilakukan, jika data masih hilang maka alarm akan beralih statusnya menjadi ALARM, karena titik data yang tidak melanggar tidak akan lagi berada dalam rentang evaluasi.

Baris ketiga, di mana semua lima titik data terbaru hilang, menggambarkan bagaimana berbagai pengaturan untuk menangani data yang hilang memengaruhi status alarm. Jika kehilangan titik data dianggap telah melanggar, maka alarm akan beralih statusnya menjadi ALARM, sementara jika alarm dianggap tidak melanggar, maka alarm akan beralih statusnya menjadi OK. Jika titik data yang hilang diabaikan, maka alarm akan mempertahankan status saat ini yang dimilikinya sebelum terjadi titik data yang hilang. Dan jika titik data yang hilang hanya dianggap sebagai kehilangan, maka alarm tidak akan memiliki data nyata terbaru untuk melakukan evaluasi, dan alarm akan beralih statusnya menjadi INSUFFICIENT_DATA.

Di baris keempat, alarm akan beralih statusnya menjadi ALARM dalam semua kasus karena tiga titik data terbaru telah melanggar, serta Periode Evaluasi dan Titik Data untuk Alarm keduanya adalah sama dengan 3. Dalam kasus ini, titik data yang hilang akan diabaikan dan pengaturan tentang cara mengevaluasi data yang hilang tidak lagi diperlukan, karena ada 3 titik data nyata yang harus dievaluasi.

Baris 5 mewakili kasus khusus dalam evaluasi alarm yang disebut sebagai status alarm belum menyala. Untuk informasi selengkapnya, lihat Menghindari peralihan sebelum waktunya pada status alarm.

Pada tabel berikut ini, Periode kembali diatur menjadi 5 menit, dan Titik Data untuk Alarm hanya 2, sedangkan Periode Evaluasi adalah 3. Ini adalah alarm 2 dari 3, M dari N.

Rentang evaluasinya adalah 5. Ini adalah jumlah maksimum titik data terbaru yang diambil dan dapat digunakan jika ada beberapa titik data yang hilang.

Titik data # titik data yang hilang HILANG ABAIKAN MELANGGAR TIDAK MELANGGAR

0 - X - X

0

ALARM

ALARM

ALARM

ALARM

0 0 X 0 X

0

ALARM

ALARM

ALARM

ALARM

0 - X - -

1

OK

OK

ALARM

OK

- - - - 0

2

OK

OK

ALARM

OK

- - - X -

2

ALARM

Mempertahankan status saat ini

ALARM

OK

Pada baris 1 dan 2, alarm tersebut selalu berada dalam status ALARM karena 2 dari 3 titik data terbaru dilanggar. Pada baris 2, dua titik data tertua dalam rentang evaluasi tidak diperlukan karena tidak ada dari 3 titik data terbaru yang hilang, sehingga dua titik data yang lama ini diabaikan.

Pada baris 3 dan 4, alarm tersebut beralih statusnya menjadi ALARM hanya jika data yang hilang diperlakukan sebagai pelanggaran, dalam hal ini dua titik data terbaru yang hilang diperlakukan sebagai pelanggaran. Pada baris 4, dua titik data hilang yang diperlakukan sebagai pelanggaran tersebut memberikan dua titik data yang melanggar yang diperlukan untuk memicu status ALARM.

Baris 5 mewakili kasus khusus dalam evaluasi alarm yang disebut sebagai status alarm belum menyala. Untuk informasi selengkapnya, silakan lihat bagian berikut ini.

Menghindari peralihan sebelum waktunya pada status alarm

CloudWatch evaluasi alarm mencakup logika untuk mencoba menghindari alarm palsu, di mana alarm masuk ke keadaan ALARM sebelum waktunya ketika data terputus-putus. Contoh yang ditunjukkan di baris 5 dalam tabel yang ada di bagian sebelumnya menggambarkan logika ini. Dalam baris tersebut, dan dalam contoh berikut, Periode Evaluasi adalah 3 dan rentang evaluasinya adalah 5 titik data. Titik data untuk Alarm adalah 3, kecuali untuk contoh M dari N, di mana Titik data untuk Alarm adalah 2.

Misalkan data terbaru sebuah alarm adalah - - - - X, dengan empat titik data yang hilang dan kemudian pelanggaran titik data sebagai titik data terbaru. Karena titik data berikutnya mungkin tidak melanggar, maka alarm tersebut tidak langsung beralih statusnya menjadi ALARM ketika data baik - - - - X maupun - - - X - dan Titik data untuk Alarm adalah 3. Dengan cara ini, positif palsu akan bisa dihindari ketika titik data berikutnya tidak melanggar dan menyebabkan data menjadi - - - X O atau - - X - O.

Namun demikian, jika beberapa titik data terakhir adalah - - X - -, maka alarm akan beralih statusnya menjadi ALARM bahkan jika titik data yang hilang diperlakukan sebagai hilang. Hal ini karena alarm dirancang untuk selalu berada dalam status ALARM ketika titik data pelanggaran yang paling lama tersedia selama jumlah titik data Periode Evaluasi paling tidak seumur dengan nilai Titik data untuk Alarm, dan semua titik data terbaru lainnya melanggar atau hilang. Dalam kasus ini, alarm tersebut beralih statusnya menjadi ALARM meskipun total titik data yang tersedia lebih rendah dari M (Titik data untuk Alarm).

Logika alarm ini juga berlaku untuk alarm M dari N. Jika titik data pelanggaran paling lama selama rentang evaluasi paling tidak seumur dengan nilai Titik data untuk Alarm, dan semua titik data yang lebih baru akan melanggar atau hilang, maka alarm akan beralih statusnya menjadi ALARM tidak peduli nilai M (Titik data untuk Alarm).

Data Hilang dalam Alarm Wawasan CloudWatch Metrik

Alarm berdasarkan kueri Wawasan Metrik yang digabungkan ke satu deret waktu

Skenario data yang hilang dan pengaruhnya terhadap evaluasi alarm sama dengan alarm metrik standar dalam hal perlakuan data hilang yang dikonfigurasi. Lihat, Mengkonfigurasi bagaimana CloudWatch alarm memperlakukan data yang hilang.

Alarm berdasarkan kueri Wawasan Metrik yang menghasilkan beberapa deret waktu

Skenario data yang hilang untuk alarm Wawasan Metrik terjadi saat:

  • Titik data individu dalam deret waktu tidak ada.

  • Satu atau lebih deret waktu menghilang saat mengevaluasi beberapa deret waktu.

  • Tidak ada deret waktu yang diambil oleh kueri.

Skenario data yang hilang memengaruhi evaluasi alarm dengan cara berikut:

  • Untuk evaluasi deret waktu, perlakuan data yang hilang diterapkan untuk titik data individu dalam deret waktu. Misalnya, jika 3 titik data ditanyakan untuk deret waktu tetapi hanya 1 yang diterima, 2 titik data akan mengikuti konfigurasi data yang hilang yang dikonfigurasi.

  • Jika deret waktu tidak diambil oleh kueri lagi, itu akan beralih ke apa OK pun perlakuan data yang hilang. Tindakan alarm yang terkait dengan OK transisi di tingkat kontributor dijalankan dan StateReason menentukan bahwa kontributor tersebut tidak ditemukan dengan pesan, “Tidak ada data yang dikembalikan untuk kontributor ini”. Status alarm akan tergantung pada status kontributor lain yang diambil oleh kueri.

  • Pada tingkat alarm, jika kueri mengembalikan hasil kosong (tidak ada deret waktu sama sekali), alarm akan bertransisi ke INSUFFICIENT_DATA tidak peduli perlakuan data yang hilang yang disetel.