Menggunakan CloudWatch alarm Amazon - Amazon CloudWatch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan CloudWatch alarm Amazon

Anda dapat membuat alarm metrik dan komposit di Amazon CloudWatch.

  • Alarm metrik menonton CloudWatch metrik tunggal atau hasil ekspresi matematika berdasarkan CloudWatch metrik. Alarm tersebut melakukan satu atau beberapa tindakan berdasarkan pada nilai metrik atau ekspresi relatif terhadap ambang batas selama beberapa periode waktu. Tindakan tersebut dapat berupa mengirimkan pemberitahuan ke topik Amazon SNS, melakukan EC2 tindakan Amazon atau tindakan Auto EC2 Scaling Amazon, memulai penyelidikan dalam investigasi operasional Pengembang Amazon Q, atau membuat OpsItem insiden atau di Systems Manager.

  • Sebuah Alarm gabungan mencakup ekspresi aturan yang memperhitungkan status alarm-alarm lainnya yang telah Anda buat. Alarm gabungan tersebut akan beralih ke status ALARM hanya jika semua ketentuan yang ada dalam aturan itu terpenuhi. Alarm yang ditentukan dalam sebuah ekspresi aturan alarm gabungan dapat mencakup alarm-alarm metrik dan alarm-alarm gabungan lainnya.

    Menggunakan alarm gabungan dapat mengurangi bising alarm. Anda dapat membuat beberapa alarm metrik, dan juga membuat sebuah alarm gabungan serta mengatur peringatan hanya untuk alarm gabungan. Misalnya, sebuah alarm gabungan dapat beralih ke status ALARM hanya jika semua alarm metrik yang mendasarinya berada dalam status ALARM.

    Alarm komposit dapat mengirim notifikasi Amazon SNS saat mengubah status, dan dapat membuat investigasi, Systems OpsItems Manager, atau insiden saat masuk ke status ALARM, tetapi tidak dapat melakukan tindakan EC2 atau tindakan Auto Scaling.

catatan

Anda dapat membuat alarm sebanyak yang Anda inginkan di AWS akun Anda.

Anda dapat menambahkan alarm ke dasbor, sehingga Anda dapat memantau dan menerima peringatan tentang AWS sumber daya dan aplikasi Anda di beberapa wilayah. Setelah Anda menambahkan sebuah alarm ke dasbor, alarm itu akan berubah menjadi abu-abu saat berada dalam status INSUFFICIENT_DATA dan menjadi merah saat berada dalam status ALARM. Alarm tersebut akan ditampilkan tanpa warna saat berada dalam status OK.

Anda juga dapat memfavoritkan alarm yang baru saja dikunjungi dari opsi Favorit dan terbaru di panel navigasi CloudWatch konsol. Opsi Favorit dan terbaru tersebut memiliki kolom untuk alarm-alarm favorit Anda dan alarm-alarm yang baru saja Anda kunjungi.

Sebuah alarm menginvokasi tindakan hanya ketika status alarm tersebut berubah. Kecuali alarm dengan tindakan penskalaan otomatis (Auto Scaling). Untuk tindakan penskalaan otomatis (Auto Scaling), alarm akan terus menginvokasi tindakan tersebut satu kali per menit sehingga alarm tetap berada dalam status baru.

Sebuah alarm dapat mengawasi metrik yang di akun yang sama. Jika Anda telah mengaktifkan fungsionalitas lintas akun di CloudWatch konsol, Anda juga dapat membuat alarm yang menonton metrik di akun lain. AWS Membuat alarm gabungan lintas akun tidak didukung. Membuat alarm lintas akun yang menggunakan ekspresi matematika didukung, kecuali jika fungsi ANOMALY_DETECTION_BAND, INSIGHT_RULE, dan SERVICE_QUOTA tidak didukung untuk alarm lintas akun.

catatan

CloudWatch tidak menguji atau memvalidasi tindakan yang Anda tentukan, juga tidak mendeteksi kesalahan Amazon EC2 Auto Scaling atau Amazon SNS yang dihasilkan dari upaya untuk menjalankan tindakan yang tidak ada. Anda harus memastikan bahwa tindakan alarm Anda ada.

Status-status alarm metrik

Sebuah alarm metrik mungkin saja berada dalam status berikut ini:

  • OK – Metrik atau ekspresi berada dalam ambang batas yang telah ditetapkan sebelumnya.

  • ALARM – Metrik atau ekspresi berada di luar ambang batas yang telah ditetapkan sebelumnya.

  • INSUFFICIENT_DATA – Alarm baru saja dimulai, metrik tidak tersedia, atau tidak ada data yang memadai yang tersedia bagi metrik untuk menentukan status alarm.

Melakukan evaluasi alarm

Saat Anda membuat alarm, Anda menentukan tiga pengaturan untuk mengaktifkan CloudWatch untuk mengevaluasi kapan harus mengubah status alarm:

  • Periode adalah lamanya waktu yang digunakan untuk mengevaluasi metrik atau ekspresi untuk membuat setiap titik data individu untuk sebuah alarm. Periode dinyatakan dalam detik.

  • Periode Evaluasi adalah jumlah periode terbaru, atau titik data, untuk melakukan evaluasi ketika menentukan status alarm.

  • Titik data untuk Alarm adalah jumlah titik data dalam Periode Evaluasi yang harus dilanggar untuk menyebabkan alarm beralih ke status ALARM. Titik data yang melanggar tidak harus berurutan, tetapi semuanya harus berada dalam jumlah titik data terakhir yang sama dengan Periode Evaluasi.

Untuk setiap periode satu menit atau lebih, sebuah alarm dievaluasi setiap menit dan evaluasinya dilakukan berdasarkan pada jendela waktu yang ditentukan oleh Periode dan Periode Evaluasi. Sebagai contoh, jika Periode adalah 5 menit (300 detik) dan Periode Evaluasi adalah 1, maka pada akhir menit 5 alarm akan melakukan evaluasi berdasarkan data dari menit 1 hingga 5. Kemudian pada akhir menit 6, alarm tersebut akan dievaluasi berdasarkan data dari menit 2 hingga 6.

Jika periode alarm adalah 10 detik, 20 detik, atau 30 detik, alarm dievaluasi setiap 10 detik.

Jika jumlah periode evaluasi dikalikan dengan panjang setiap periode evaluasi melebihi satu hari, alarm dievaluasi sekali per jam. Untuk detail selengkapnya tentang bagaimana alarm multi-hari ini dievaluasi, lihat contoh di akhir bagian ini.

Pada gambar berikut, ambang batas alarm untuk sebuah alarm metrik diatur untuk tiga unit. Baik Periode Evaluasi maupun Titik data untuk Alarm adalah 3. Artinya, ketika semua titik data yang ada dalam tiga periode terakhir yang berurutan berada di atas ambang batas, alarm akan beralih ke status ALARM. Dalam gambar tersebut, status ini terjadi pada periode waktu ketiga hingga kelima. Pada periode enam, nilainya turun menjadi di bawah ambang batas, sehingga salah satu periode yang dievaluasi tidak melanggar, dan status alarm kemudian berubah kembali menjadi OK. Selama periode kesembilan, ambang batas tersebut dilanggar lagi, tapi hanya selama satu periode. Akibatnya, alarm tetap berada dalam status OK.

Ambang batas alarm memicu alarm

Ketika Anda mengonfigurasi Periode Evaluasi dan Titik data untuk Alarm dengan nilai yang berbeda, Anda sedang mengatur alarm "M dari N". Titik data untuk Alarm adalah ("M") dan Periode Evaluasi adalah ("N"). Interval evaluasi adalah jumlah periode evaluasi yang dikalikan dengan panjang periode. Sebagai contoh, jika Anda mengonfigurasikan 4 dari 5 titik data dengan periode 1 menit, maka interval evaluasinya adalah 5 menit. Jika Anda mengonfigurasikan 3 dari 3 titik data dengan periode 10 menit, maka interval evaluasinya adalah 30 menit.

catatan

Jika titik data hilang segera setelah Anda membuat alarm, dan metrik dilaporkan CloudWatch sebelum Anda membuat alarm, CloudWatch ambil titik data terbaru dari sebelum alarm dibuat saat mengevaluasi alarm.

Contoh mengevaluasi alarm multi-hari

Alarm adalah alarm multi-hari jika jumlah periode evaluasi dikalikan dengan panjang setiap periode evaluasi melebihi satu hari. Alarm multi-hari dievaluasi sekali per jam. Saat alarm multi-hari dievaluasi, CloudWatch perhitungkan hanya metrik hingga jam saat ini pada menit 00 saat mengevaluasi.

Misalnya, pertimbangkan alarm yang memantau pekerjaan yang berjalan setiap 3 hari pada pukul 10:00.

  1. Pada 10:02, pekerjaan gagal

  2. Pada 10:03, alarm mengevaluasi dan tetap dalam OK keadaan, karena evaluasi mempertimbangkan data hanya hingga 10:00.

  3. Pada pukul 11:03, alarm mempertimbangkan data hingga 11:00 dan masuk ke status. ALARM

  4. Pada 11:43, Anda memperbaiki kesalahan dan pekerjaan sekarang berjalan dengan sukses.

  5. Pada pukul 12:03, alarm mengevaluasi lagi, melihat pekerjaan yang berhasil, dan kembali ke keadaan. OK

Tindakan-tindakan alarm

Anda dapat menentukan tindakan-tindakan apa saja yang dilakukan alarm saat mengubah status antara status OK, ALARM, dan INSUFFICIENT_DATA.

Sebagian besar tindakan dapat diatur untuk beralih ke masing-masing tiga status. Kecuali untuk tindakan penskalaan otomatis (Auto Scaling), maka tindakan tersebut hanya terjadi pada peralihan status, dan tidak akan dilakukan lagi jika kondisinya berlanjut selama berjam-jam atau berhari-hari. Anda dapat menggunakan fakta bahwa beberapa tindakan diizinkan untuk sebuah alarm untuk mengirim email ketika ambang batas dilanggar, dan kemudian tindakan lain ketika kondisi pelanggaran berakhir. Hal ini akan membantu Anda memverifikasi bahwa tindakan-tindakan penskalaan atau pemulihan Anda dipicu saat diharapkan dan berfungsi sesuai dengan keinginan Anda.

Berikut ini didukung sebagai tindakan-tindakan alarm.

Alarm juga memancarkan peristiwa Amazon EventBridge ketika mereka mengubah status, dan Anda dapat mengatur Amazon EventBridge untuk memicu tindakan lain untuk perubahan status ini. Untuk informasi lebih lanjut, lihat Apa itu Amazon EventBridge? .

Tindakan-tindakan alarm Lambda

CloudWatch alarm menjamin pemanggilan fungsi Lambda asinkron untuk perubahan status tertentu, kecuali dalam kasus berikut:

  • Ketika fungsi tidak ada.

  • Kapan CloudWatch tidak diizinkan untuk menjalankan fungsi Lambda.

Jika tidak CloudWatch dapat mencapai layanan Lambda atau pesan ditolak karena alasan lain, CloudWatch coba lagi sampai pemanggilan berhasil. Lambda mengantri pesan dan menangani percobaan ulang eksekusi. Untuk informasi selengkapnya tentang model eksekusi ini, termasuk informasi tentang cara Lambda menangani kesalahan, lihat Pemanggilan asinkron di Panduan Pengembang. AWS Lambda

Anda dapat menjalankan fungsi Lambda di akun yang sama, atau di AWS akun lain.

Saat Anda menentukan sebuah alarm untuk menginvokasi sebuah fungsi Lambda sebagai tindakan alarm, Anda dapat memilih untuk menentukan nama fungsi, nama alias fungsi, atau versi tertentu dari sebuah fungsi.

Saat Anda menentukan fungsi Lambda sebagai tindakan alarm, Anda harus membuat kebijakan sumber daya agar fungsi tersebut memungkinkan prinsipal CloudWatch layanan menjalankan fungsi tersebut.

Salah satu cara untuk melakukannya adalah dengan menggunakan AWS CLI, seperti pada contoh berikut:

aws lambda add-permission \ --function-name my-function-name \ --statement-id AlarmAction \ --action 'lambda:InvokeFunction' \ --principal lambda.alarms.cloudwatch.amazonaws.com \ --source-account 111122223333 \ --source-arn arn:aws:cloudwatch:us-east-1:111122223333:alarm:alarm-name

Atau, Anda dapat membuat sebuah kebijakan yang mirip dengan salah satu contoh berikut dan kemudian menetapkannya ke fungsi tersebut.

Contoh berikut menentukan akun yang menjadi lokasi keberadaan alarm, sehingga hanya alarm-alarm yang ada di akun itu (111122223333) yang dapat menginvokasi fungsi tersebut.

{ "Version": "2012-10-17", "Id": "default", "Statement": [{ "Sid": "AlarmAction", "Effect": "Allow", "Principal": { "Service": "lambda.alarms.cloudwatch.amazonaws.com" }, "Action": "lambda:InvokeFunction", "Resource": "arn:aws:lambda:us-east-1:444455556666:function:function-name", "Condition": { "StringEquals": { "AWS:SourceAccount": "111122223333" } } }] }

Contoh berikut memiliki cakupan yang lebih sempit, yang memungkinkan hanya alarm yang ditentukan yang ada di akun yang ditentukan saja yang menginvokasi fungsi.

{ "Version": "2012-10-17", "Id": "default", "Statement": [ { "Sid": "AlarmAction", "Effect": "Allow", "Principal": { "Service": "lambda.alarms.cloudwatch.amazonaws.com" }, "Action": "lambda:InvokeFunction", "Resource": "arn:aws:lambda:us-east-1:444455556666:function:function-name", "Condition": { "StringEquals": { "AWS:SourceAccount": "111122223333", "AWS:SourceArn": "arn:aws:cloudwatch:us-east-1:111122223333:alarm:alarm-name" } } }] }

Kami tidak menyarankan Anda membuat sebuah kebijakan yang tidak menentukan akun sumber, karena kebijakan semacam itu akan rentan terhadap masalah deputi yang membingungkan.

Objek acara dikirim dari CloudWatch ke Lambda

Saat Anda mengonfigurasi fungsi Lambda sebagai tindakan alarm, CloudWatch mengirimkan muatan JSON ke fungsi Lambda saat memanggil fungsi tersebut. Muatan JSON ini berfungsi sebagai objek peristiwa untuk fungsi tersebut. Anda dapat mengekstrak data dari objek JSON ini dan menggunakannya dalam fungsi Anda. Berikut ini adalah contoh dari sebuah objek peristiwa dari sebuah alarm metrik.

{ 'source': 'aws.cloudwatch', 'alarmArn': 'arn:aws:cloudwatch:us-east-1:444455556666:alarm:lambda-demo-metric-alarm', 'accountId': '444455556666', 'time': '2023-08-04T12:36:15.490+0000', 'region': 'us-east-1', 'alarmData': { 'alarmName': 'lambda-demo-metric-alarm', 'state': { 'value': 'ALARM', 'reason': 'test', 'timestamp': '2023-08-04T12:36:15.490+0000' }, 'previousState': { 'value': 'INSUFFICIENT_DATA', 'reason': 'Insufficient Data: 5 datapoints were unknown.', 'reasonData': '{"version":"1.0","queryDate":"2023-08-04T12:31:29.591+0000","statistic":"Average","period":60,"recentDatapoints":[],"threshold":5.0,"evaluatedDatapoints":[{"timestamp":"2023-08-04T12:30:00.000+0000"},{"timestamp":"2023-08-04T12:29:00.000+0000"},{"timestamp":"2023-08-04T12:28:00.000+0000"},{"timestamp":"2023-08-04T12:27:00.000+0000"},{"timestamp":"2023-08-04T12:26:00.000+0000"}]}', 'timestamp': '2023-08-04T12:31:29.595+0000' }, 'configuration': { 'description': 'Metric Alarm to test Lambda actions', 'metrics': [ { 'id': '1234e046-06f0-a3da-9534-EXAMPLEe4c', 'metricStat': { 'metric': { 'namespace': 'AWS/Logs', 'name': 'CallCount', 'dimensions': { 'InstanceId': 'i-12345678' } }, 'period': 60, 'stat': 'Average', 'unit': 'Percent' }, 'returnData': True } ] } } }

Berikut ini adalah contoh dari sebuah objek peristiwa dari sebuah alarm gabungan.

{ 'source': 'aws.cloudwatch', 'alarmArn': 'arn:aws:cloudwatch:us-east-1:111122223333:alarm:SuppressionDemo.Main', 'accountId': '111122223333', 'time': '2023-08-04T12:56:46.138+0000', 'region': 'us-east-1', 'alarmData': { 'alarmName': 'CompositeDemo.Main', 'state': { 'value': 'ALARM', 'reason': 'arn:aws:cloudwatch:us-east-1:111122223333:alarm:CompositeDemo.FirstChild transitioned to ALARM at Friday 04 August, 2023 12:54:46 UTC', 'reasonData': '{"triggeringAlarms":[{"arn":"arn:aws:cloudwatch:us-east-1:111122223333:alarm:CompositeDemo.FirstChild","state":{"value":"ALARM","timestamp":"2023-08-04T12:54:46.138+0000"}}]}', 'timestamp': '2023-08-04T12:56:46.138+0000' }, 'previousState': { 'value': 'ALARM', 'reason': 'arn:aws:cloudwatch:us-east-1:111122223333:alarm:CompositeDemo.FirstChild transitioned to ALARM at Friday 04 August, 2023 12:54:46 UTC', 'reasonData': '{"triggeringAlarms":[{"arn":"arn:aws:cloudwatch:us-east-1:111122223333:alarm:CompositeDemo.FirstChild","state":{"value":"ALARM","timestamp":"2023-08-04T12:54:46.138+0000"}}]}', 'timestamp': '2023-08-04T12:54:46.138+0000', 'actionsSuppressedBy': 'WaitPeriod', 'actionsSuppressedReason': 'Actions suppressed by WaitPeriod' }, 'configuration': { 'alarmRule': 'ALARM(CompositeDemo.FirstChild) OR ALARM(CompositeDemo.SecondChild)', 'actionsSuppressor': 'CompositeDemo.ActionsSuppressor', 'actionsSuppressorWaitPeriod': 120, 'actionsSuppressorExtensionPeriod': 180 } } }

Mengkonfigurasi bagaimana CloudWatch alarm memperlakukan data yang hilang

Terkadang, tidak setiap titik data yang diharapkan untuk metrik dilaporkan CloudWatch. Sebagai contoh, hal ini dapat terjadi ketika koneksi terputus, server rusak, atau ketika metrik melaporkan data hanya secara sementara sesuai desain.

CloudWatch memungkinkan Anda menentukan cara memperlakukan titik data yang hilang saat mengevaluasi alarm. Hal ini akan membantu Anda untuk mengonfigurasi alarm agar statusnya beralih menjadi ALARM hanya jika sesuai dengan jenis data yang dipantau. Anda dapat menghindari peringatan palsu ketika data yang hilang tidak menunjukkan adanya masalah.

Mirip dengan bagaimana setiap alarm selalu berada di salah satu dari tiga negara bagian, setiap titik data spesifik dilaporkan CloudWatch termasuk dalam salah satu dari tiga kategori:

  • Bukan pelanggaran (dalam ambang batas)

  • Pelanggaran (melanggar ambang batas)

  • Hilang

Untuk setiap alarm, Anda dapat menentukan CloudWatch untuk memperlakukan titik data yang hilang sebagai salah satu dari berikut ini:

  • notBreaching – Titik data yang hilang diperlakukan sebagai "baik" dan berada dalam ambang batas,

  • breaching – Titik data yang hilang diperlakukan sebagai "buruk" dan melanggar ambang batas

  • ignore – Status alarm saat ini tetap dipertahankan

  • missing – Jika semua titik data dalam kisaran evaluasi alarm hilang, maka alarm akan beralih menjadi INSUFFIENT_DATA.

Pilihan terbaik tergantung pada jenis metrik dan tujuan alarm. Misalnya, jika Anda membuat alarm rollback aplikasi menggunakan metrik yang terus-menerus melaporkan data, Anda mungkin ingin memperlakukan titik data yang hilang sebagai pelanggaran, karena itu mungkin menunjukkan bahwa ada sesuatu yang salah. Namun demikian, untuk sebuah metrik yang menghasilkan titik data hanya ketika kesalahan terjadi, seperti ThrottledRequests di Amazon DynamoDB, Anda ingin memperlakukan data yang hilang sebagai notBreaching. Perilaku bawaannya adalah missing.

penting

Alarm yang dikonfigurasi pada EC2 metrik Amazon dapat memasukkan status INSUFFICIENT_DATA untuk sementara jika ada titik data metrik yang hilang. Ini jarang terjadi, tetapi dapat terjadi ketika pelaporan metrik terganggu, bahkan ketika EC2 instance Amazon sehat. Untuk alarm di EC2 metrik Amazon yang dikonfigurasi untuk menghentikan, menghentikan, reboot, atau memulihkan tindakan, sebaiknya Anda mengonfigurasi alarm tersebut untuk memperlakukan data yang hilang sebagaimissing, dan agar alarm ini dipicu hanya saat berada dalam status ALARM.

Memilih pilihan terbaik untuk alarm-alarm Anda akan mencegah perubahan kondisi alarm yang tidak perlu serta menyesatkan, dan juga akan menunjukkan kesehatan sistem Anda secara lebih akurat.

penting

Alarm-alarm yang mengevaluasi metrik di namespace AWS/DynamoDB selalu mengabaikan data yang hilang meskipun Anda memilih opsi berbeda untuk bagaimana alarm tersebut harus memperlakukan data yang hilang. Ketika sebuah metrik AWS/DynamoDB memiliki data yang hilang, alarm yang mengevaluasi metrik tersebut akan tetap berada dalam status saat ini.

Cara mengevaluasi status alarm ketika terjadi data hilang

Setiap kali alarm mengevaluasi apakah akan mengubah status, CloudWatch mencoba untuk mengambil jumlah titik data yang lebih tinggi daripada nomor yang ditentukan sebagai Periode Evaluasi. Jumlah pasti titik data yang berusaha diambil oleh CloudWatch bergantung pada lama periode alarm dan apakah didasarkan pada metrik dengan resolusi standar atau resolusi tinggi. Jangka waktu titik data yang berusaha diambil oleh CloudWatch adalah rangkaian evaluasi.

Setelah CloudWatch mengambil titik-titik data ini, hal berikut terjadi:

  • Jika tidak ada titik data dalam rentang evaluasi yang hilang, CloudWatch evaluasi alarm berdasarkan titik data terbaru yang dikumpulkan. Jumlah titik data yang dievaluasi setara dengan Periode Evaluasi untuk alarm tersebut. Titik data ekstra dari versi yang lebih jauh dalam rentang evaluasi tidak diperlukan dan akan diabaikan.

  • Jika beberapa titik data dalam rentang evaluasi hilang, tetapi jumlah total titik data yang ada yang berhasil diambil dari rentang evaluasi sama dengan atau lebih dari Periode Evaluasi alarm, CloudWatch evaluasi status alarm berdasarkan data nyata terbaru titik yang berhasil diambil, termasuk titik data tambahan yang diperlukan dari jauh ke belakang dalam rentang evaluasi. Dalam kasus ini, nilai yang Anda tetapkan untuk cara memperlakukan data yang hilang tidak diperlukan dan akan diabaikan.

  • Jika beberapa titik data dalam rentang evaluasi hilang, dan jumlah titik data aktual yang diambil lebih rendah dari jumlah Periode Evaluasi alarm, CloudWatch isi titik data yang hilang dengan hasil yang Anda tentukan untuk cara memperlakukan data yang hilang, dan kemudian mengevaluasi alarm. Namun, semua titik data nyata dalam rentang evaluasi termasuk dalam evaluasi. CloudWatch menggunakan titik data yang hilang hanya sesedikit mungkin.

catatan

Kasus khusus dari perilaku ini adalah bahwa CloudWatch alarm mungkin berulang kali mengevaluasi kembali set titik data terakhir untuk jangka waktu tertentu setelah metrik berhenti mengalir. Evaluasi ulang ini dapat menyebabkan status alarm berubah dan melaksanakan ulang tindakan, jika alarm telah berubah statusnya sesaat sebelum aliran metrik berhenti. Untuk mengurangi perilaku ini, Anda harus menggunakan periode yang lebih singkat.

Tabel berikut menggambarkan beberapa contoh perilaku evaluasi alarm. Pada tabel pertama, Datapoint untuk Alarm dan Periode Evaluasi keduanya 3. CloudWatch mengambil 5 titik data terbaru saat mengevaluasi alarm, jika beberapa dari 3 titik data terbaru hilang. 5 adalah rentang evaluasi untuk alarm.

Kolom 1 menunjukkan 5 titik data terbaru, karena rentang evaluasinya adalah 5. Titik data ini ditampilkan pada titik data terbaru di sebelah kanan. 0 adalah titik data yang tidak terjangkau, X adalah titik data yang dilanggar, dan - adalah titik data yang hilang.

Kolom 2 menunjukkan berapa banyak dari 3 titik data yang diperlukan yang hilang. Meskipun 5 titik data terbaru dievaluasi, hanya 3 (pengaturan untuk Periode Evaluasi) yang diperlukan untuk mengevaluasi status alarm. Jumlah titik data di Kolom 2 adalah jumlah titik data yang harus "diisi", dengan menggunakan pengaturan tentang cara memperlakukan data yang hilang.

Pada kolom 3-6, header kolom adalah nilai-nilai yang mungkin untuk cara memperlakukan data yang hilang. Baris-baris dalam kolom ini menunjukkan status alarm yang diatur untuk masing-masing cara yang memungkinkan untuk memperlakukan data yang hilang.

Titik data # titik data yang harus diisi HILANG ABAIKAN MELANGGAR TIDAK MELANGGAR

0 - X - X

0

OK

OK

OK

OK

0 - - - -

2

OK

OK

OK

OK

- - - - -

3

INSUFFICIENT_DATA

Mempertahankan status saat ini

ALARM

OK

0 X X - X

0

ALARM

ALARM

ALARM

ALARM

- - X - -

2

ALARM

Mempertahankan status saat ini

ALARM

OK

Pada baris kedua tabel sebelumnya, alarm tetap dalam status OK meskipun data yang hilang diperlakukan sebagai pelanggaran, karena satu titik data yang ada tidak melanggar, dan dievaluasi bersama dengan dua titik data yang hilang yang diperlakukan sebagai pelanggaran. Dalam evaluasi alarm yang berikutnya dilakukan, jika data masih hilang maka alarm akan beralih statusnya menjadi ALARM, karena titik data yang tidak melanggar tidak akan lagi berada dalam rentang evaluasi.

Baris ketiga, di mana semua lima titik data terbaru hilang, menggambarkan bagaimana berbagai pengaturan untuk menangani data yang hilang memengaruhi status alarm. Jika kehilangan titik data dianggap telah melanggar, maka alarm akan beralih statusnya menjadi ALARM, sementara jika alarm dianggap tidak melanggar, maka alarm akan beralih statusnya menjadi OK. Jika titik data yang hilang diabaikan, maka alarm akan mempertahankan status saat ini yang dimilikinya sebelum terjadi titik data yang hilang. Dan jika titik data yang hilang hanya dianggap sebagai kehilangan, maka alarm tidak akan memiliki data nyata terbaru untuk melakukan evaluasi, dan alarm akan beralih statusnya menjadi INSUFFICIENT_DATA.

Di baris keempat, alarm akan beralih statusnya menjadi ALARM dalam semua kasus karena tiga titik data terbaru telah melanggar, serta Periode Evaluasi dan Titik Data untuk Alarm keduanya adalah sama dengan 3. Dalam kasus ini, titik data yang hilang akan diabaikan dan pengaturan tentang cara mengevaluasi data yang hilang tidak lagi diperlukan, karena ada 3 titik data nyata yang harus dievaluasi.

Baris 5 mewakili kasus khusus dalam evaluasi alarm yang disebut sebagai status alarm belum menyala. Untuk informasi selengkapnya, lihat Menghindari peralihan sebelum waktunya pada status alarm.

Pada tabel berikut ini, Periode kembali diatur menjadi 5 menit, dan Titik Data untuk Alarm hanya 2, sedangkan Periode Evaluasi adalah 3. Ini adalah alarm 2 dari 3, M dari N.

Rentang evaluasinya adalah 5. Ini adalah jumlah maksimum titik data terbaru yang diambil dan dapat digunakan jika ada beberapa titik data yang hilang.

Titik data # titik data yang hilang HILANG ABAIKAN MELANGGAR TIDAK MELANGGAR

0 - X - X

0

ALARM

ALARM

ALARM

ALARM

0 0 X 0 X

0

ALARM

ALARM

ALARM

ALARM

0 - X - -

1

OK

OK

ALARM

OK

- - - - 0

2

OK

OK

ALARM

OK

- - - X -

2

ALARM

Mempertahankan status saat ini

ALARM

OK

Pada baris 1 dan 2, alarm tersebut selalu berada dalam status ALARM karena 2 dari 3 titik data terbaru dilanggar. Pada baris 2, dua titik data tertua dalam rentang evaluasi tidak diperlukan karena tidak ada dari 3 titik data terbaru yang hilang, sehingga dua titik data yang lama ini diabaikan.

Pada baris 3 dan 4, alarm tersebut beralih statusnya menjadi ALARM hanya jika data yang hilang diperlakukan sebagai pelanggaran, dalam hal ini dua titik data terbaru yang hilang diperlakukan sebagai pelanggaran. Pada baris 4, dua titik data hilang yang diperlakukan sebagai pelanggaran tersebut memberikan dua titik data yang melanggar yang diperlukan untuk memicu status ALARM.

Baris 5 mewakili kasus khusus dalam evaluasi alarm yang disebut sebagai status alarm belum menyala. Untuk informasi selengkapnya, silakan lihat bagian berikut ini.

Menghindari peralihan sebelum waktunya pada status alarm

CloudWatch evaluasi alarm mencakup logika untuk mencoba menghindari alarm palsu, di mana alarm masuk ke keadaan ALARM sebelum waktunya ketika data terputus-putus. Contoh yang ditunjukkan di baris 5 dalam tabel yang ada di bagian sebelumnya menggambarkan logika ini. Dalam baris tersebut, dan dalam contoh berikut, Periode Evaluasi adalah 3 dan rentang evaluasinya adalah 5 titik data. Titik data untuk Alarm adalah 3, kecuali untuk contoh M dari N, di mana Titik data untuk Alarm adalah 2.

Misalkan data terbaru sebuah alarm adalah - - - - X, dengan empat titik data yang hilang dan kemudian pelanggaran titik data sebagai titik data terbaru. Karena titik data berikutnya mungkin tidak melanggar, maka alarm tersebut tidak langsung beralih statusnya menjadi ALARM ketika data baik - - - - X maupun - - - X - dan Titik data untuk Alarm adalah 3. Dengan cara ini, positif palsu akan bisa dihindari ketika titik data berikutnya tidak melanggar dan menyebabkan data menjadi - - - X O atau - - X - O.

Namun demikian, jika beberapa titik data terakhir adalah - - X - -, maka alarm akan beralih statusnya menjadi ALARM bahkan jika titik data yang hilang diperlakukan sebagai hilang. Hal ini karena alarm dirancang untuk selalu berada dalam status ALARM ketika titik data pelanggaran yang paling lama tersedia selama jumlah titik data Periode Evaluasi paling tidak seumur dengan nilai Titik data untuk Alarm, dan semua titik data terbaru lainnya melanggar atau hilang. Dalam kasus ini, alarm tersebut beralih statusnya menjadi ALARM meskipun total titik data yang tersedia lebih rendah dari M (Titik data untuk Alarm).

Logika alarm ini juga berlaku untuk alarm M dari N. Jika titik data pelanggaran paling lama selama rentang evaluasi paling tidak seumur dengan nilai Titik data untuk Alarm, dan semua titik data yang lebih baru akan melanggar atau hilang, maka alarm akan beralih statusnya menjadi ALARM tidak peduli nilai M (Titik data untuk Alarm).

Alarm-alarm resolusi tinggi

Jika Anda mengatur alarm pada metrik resolusi tinggi, Anda dapat menentukan alarm resolusi tinggi dengan jangka waktu 10 detik, 20 detik, atau 30 detik, atau Anda dapat mengatur alarm reguler dengan periode kelipatan 60 detik. Ada beban yang lebih tinggi untuk alarm-alarm dengan resolusi tinggi. Untuk informasi selengkapnya tentang metrik resolusi tinggi, silakan lihat Menerbitkan metrik kustom.

Alarm-alarm tentang ekspresi matematika

Anda dapat mengatur alarm pada hasil ekspresi matematika yang didasarkan pada satu atau beberapa CloudWatch metrik. Sebuah ekspresi matematika yang digunakan untuk sebuah alarm dapat menyertakan sebanyak 10 metrik. Masing-masing metrik tersebut harus menggunakan periode yang sama.

Untuk alarm berdasarkan ekspresi matematika, Anda dapat menentukan bagaimana Anda CloudWatch ingin memperlakukan titik data yang hilang. Dalam hal ini, titik data akan dianggap hilang jika ekspresi matematika tersebut tidak mengembalikan nilai untuk titik data itu.

Alarm berdasarkan ekspresi matematika tidak dapat melakukan EC2 tindakan Amazon.

Untuk informasi selengkapnya tentang ekspresi matematika metrik dan sintaks, silakan lihat Menggunakan ekspresi matematika dengan CloudWatch metrik.

CloudWatch Alarm berbasis persentil dan sampel data rendah

Ketika Anda mengatur persentil sebagai statistik untuk sebuah alarm, Anda dapat menentukan apa yang harus dilakukan ketika tidak terdapat data yang cukup untuk dilakukannya penilaian statistik yang baik. Anda dapat memilih untuk membuat alarm yang mengevaluasi statistik dan mungkin mengubah status alarm. Atau, Anda dapat membuat alarm yang mengabaikan metrik ketika ukuran sampel kecil, dan menunggu untuk melakukan evaluasi sampai tersedia cukup data yang signifikan secara statistik.

Untuk persentil antara 0,5 (inklusif) dan 1,00 (eksklusif), pengaturan ini digunakan apabila terdapat titik data kurang dari 10/(1-persentil) selama periode evaluasi. Sebagai contoh, pengaturan ini akan digunakan jika terdapat sampel kurang dari 1000 sampel untuk alarm pada persentil p99. Untuk persentil antara 0 dan 0,5 (eksklusif), pengaturan tersebut digunakan ketika titik data kurang dari 10/persentil.

Fitur umum CloudWatch alarm

Fitur-fitur berikut berlaku untuk semua CloudWatch alarm:

  • Tidak ada batasan jumlah alarm yang dapat Anda buat. Untuk membuat atau memperbarui alarm, Anda menggunakan CloudWatch konsol, tindakan PutMetricAlarmAPI, atau put-metric-alarmperintah di AWS CLI.

  • Nama alarm harus menggunakan karakter UTF-8, dan tidak dapat berisi karakter kontrol ASCII

  • Anda dapat mencantumkan salah satu atau semua alarm yang saat ini dikonfigurasi, dan mencantumkan alarm apa pun dalam status tertentu dengan menggunakan CloudWatch konsol, tindakan DescribeAlarmsAPI, atau perintah deskripsikan alarm di. AWS CLI

  • Anda dapat menonaktifkan dan mengaktifkan tindakan alarm dengan menggunakan tindakan DisableAlarmActionsdan EnableAlarmActionsAPI, atau enable-alarm-actionsperintah disable-alarm-actionsdan di AWS CLI.

  • Anda dapat menguji alarm dengan menyetelnya ke status apa pun menggunakan tindakan SetAlarmStateAPI atau set-alarm-stateperintah di AWS CLI. Perubahan status sementara ini hanya berlangsung hingga perbandingan alarm berikutnya terjadi.

  • Anda dapat membuat sebuah alarm untuk metrik kustom sebelum membuat metrik kustom tersebut. Agar alarm tersebut berfungsi dengan benar, Anda harus menyertakan semua dimensi untuk metrik kustom selain namespace metrik dan nama metrik dalam definisi alarm. Untuk melakukan ini, Anda dapat menggunakan tindakan PutMetricAlarmAPI, atau put-metric-alarmperintah di AWS CLI.

  • Anda dapat melihat riwayat alarm menggunakan CloudWatch konsol, tindakan DescribeAlarmHistoryAPI, atau describe-alarm-historyperintah di AWS CLI. CloudWatch mempertahankan riwayat alarm selama 30 hari. Setiap transisi status akan ditandai dengan stempel waktu yang unik. Dalam kasus yang jarang terjadi, riwayat Anda mungkin menampilkan lebih dari satu notifikasi perubahan status. Dengan stempel waktu tersebut, Anda dapat mengonfirmasi perubahan status yang unik.

  • Anda dapat memfavoritkan alarm dari opsi Favorit dan terbaru di panel navigasi CloudWatch konsol dengan mengarahkan kursor ke alarm yang ingin Anda favoritkan dan memilih simbol bintang di sebelahnya.

  • Alarm memiliki kuota periode evaluasi. Periode evaluasi dihitung dengan mengalikan periode alarm dengan jumlah periode evaluasi yang digunakan.

    • Periode evaluasi maksimum adalah tujuh hari untuk alarm dengan jangka waktu minimal satu jam (3600 detik).

    • Periode evaluasi maksimum adalah satu hari untuk alarm dengan periode yang lebih pendek.

    • Periode evaluasi maksimum adalah satu hari untuk alarm yang menggunakan sumber data Lambda khusus.

catatan

Beberapa AWS sumber daya tidak mengirim data metrik ke CloudWatch dalam kondisi tertentu.

Misalnya, Amazon EBS mungkin tidak mengirim data metrik untuk volume yang tersedia yang tidak dilampirkan ke EC2 instans Amazon, karena tidak ada aktivitas metrik yang akan dipantau untuk volume tersebut. Jika Anda memiliki sebuah alarm yang diatur untuk metrik seperti itu, maka Anda mungkin akan melihat statusnya berubah menjadi INSUFFICIENT_DATA. Hal ini dapat menunjukkan bahwa sumber daya Anda tidak aktif, dan mungkin tidak selalu berarti bahwa ada masalah yang sedang terjadi. Anda dapat menentukan bagaimana masing-masing alarm memperlakukan data yang hilang. Untuk informasi selengkapnya, lihat Mengkonfigurasi bagaimana CloudWatch alarm memperlakukan data yang hilang.