OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti

Sangat penting untuk mendeteksi dan merespons penyimpangan dalam perilaku aplikasi Anda segera. Lebih penting lagi adalah mengenali ketika hasil yang didasarkan pada indikator kinerja utama (KPI) berisiko atau ketika muncul anomali yang tak terduga. Mendasarkan peringatan pada KPI akan memastikan bahwa sinyal yang Anda terima berkaitan langsung dengan dampak bisnis atau operasional. Pendekatan terhadap peringatan yang dapat ditindaklanjuti ini mempromosikan respons proaktif dan akan membantu Anda untuk mempertahankan performa dan keandalan sistem.

Hasil yang diinginkan: Menerima peringatan yang tepat waktu, relevan, dan dapat ditindaklanjuti untuk identifikasi dan mitigasi potensi masalah dengan cepat, terutama ketika hasil KPI berisiko.

Anti-pola umum:

Menyiapkan terlalu banyak peringatan non-kritis, yang mengakibatkan kewalahan.
Tidak memprioritaskan peringatan berdasarkan KPI, sehingga dampak masalah terhadap bisnis menjadi sulit dipahami.
Mengabaikan penanganan akar masalah, yang berimbas pada munculnya peringatan berulang untuk masalah yang sama.

Manfaat menjalankan praktik terbaik ini:

Berkurangnya kewalahan akibat peringatan dengan memusatkan perhatian pada peringatan-peringatan yang dapat ditindaklanjuti dan relevan.
Waktu aktif dan keandalan sistem yang lebih baik melalui deteksi dan mitigasi masalah yang proaktif.
Kolaborasi tim yang disempurnakan dan penyelesaian masalah yang lebih cepat dengan melakukan integrasi alat-alat peringatan dan komunikasi populer.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Tinggi

Panduan implementasi

Untuk membuat sebuah mekanisme peringatan yang efektif, Anda harus menggunakan metrik, log, dan data jejak yang menandai kapan hasil yang didasarkan pada KPI berisiko atau terdapat anomali yang terdeteksi.

Langkah-langkah implementasi

Tentukan indikator kinerja utama (KPI): Identifikasi KPI yang dimiliki aplikasi Anda. Peringatan harus dikaitkan dengan KPI ini agar mencerminkan dampak bisnis secara akurat.
Implementasikan deteksi anomali:
- Gunakan deteksi anomali Amazon CloudWatch: Siapkan deteksi anomali Amazon CloudWatch untuk mendeteksi pola yang tidak biasa secara otomatis, yang membantu Anda hanya menghasilkan peringatan untuk anomali yang asli.
- Gunakan Wawasan AWS X-Ray:
  1. Siapkan Wawasan X-Ray untuk mendeteksi anomali dalam data jejak.
  2. Konfigurasikan notifikasi untuk Wawasan X-Ray agar Anda mendapat notifikasi tentang masalah yang terdeteksi.
- Integrasikan dengan Amazon DevOps Guru:
  1. Manfaatkan Amazon DevOps Guru untuk kemampuan machine learning-nya dalam mendeteksi anomali operasional pada data yang ada.
  2. Arahkan ke pengaturan notifikasi di DevOps Guru untuk menyiapkan peringatan anomali.
Implementasikan peringatan yang dapat ditindaklanjuti: Rancang peringatan yang menyediakan informasi yang memadai untuk tindakan cepat.
1. Pantau peristiwa AWS Health dengan aturan Amazon EventBridge, atau integrasikan secara terprogram dengan API AWS Health untuk mengotomatiskan tindakan saat Anda menerima peristiwa AWS Health. Ini bisa berupa tindakan-tindakan umum, seperti mengirimkan semua pesan peristiwa siklus hidup yang direncanakan ke antarmuka obrolan, atau tindakan tertentu, seperti inisiasi alur kerja di alat manajemen layanan IT.
Kurangi kelelahan karena peringatan: Minimalkan peringatan non-kritis. Ketika tim kewalahan dengan banyaknya peringatan yang tidak penting, mereka bisa jadi melewatkan masalah-masalah kritis, sehingga mengurangi efektivitas mekanisme peringatan secara keseluruhan.
Siapkan alarm komposit: Gunakan alarm komposit Amazon CloudWatch untuk mengkonsolidasikan beberapa alarm.
Integrasikan dengan alat peringatan: Gabungkan alat seperti Ops Genie dan PagerDuty.
Gunakan kemampuan Amazon Q Developer dalam aplikasi obrolan: Integrasikan Amazon Q Developer dalam aplikasi obrolan untuk menyampaikan peringatan ke Amazon Chime, Microsoft Teams, dan Slack.
Peringatan berdasarkan log: Gunakan filter metrik log di CloudWatch untuk membuat alarm berdasarkan peristiwa log tertentu.
Tinjau dan ulangi: Tinjau ulang dan sempurnakan konfigurasi peringatan secara rutin.

Tingkat upaya untuk rencana implementasi: Sedang

Sumber daya

Praktik-praktik terbaik terkait:

Dokumen terkait:

Video terkait:

Contoh terkait:

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

OPS08-BP03 Menganalisis jejak beban kerja

OPS08-BP05 Membuat dasbor