OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti
Sangat penting mendeteksi dan merespons penyimpangan dalam perilaku aplikasi Anda segera. Lebih penting lagi adalah mengenali ketika hasil yang didasarkan pada indikator kinerja utama (KPI) terpapar risiko atau ketika anomali tak terduga muncul. Mendasarkan peringatan pada KPI memastikan bahwa sinyal yang Anda terima berkaitan langsung dengan dampak bisnis atau operasional. Pendekatan terhadap peringatan yang dapat ditindaklanjuti ini mempromosikan respons proaktif dan membantu mempertahankan performa dan keandalan sistem.
Hasil yang diinginkan: Terima peringatan yang tepat waktu, relevan, dan dapat ditindaklanjuti untuk identifikasi dan mitigasi potensi masalah dengan cepat, terutama ketika hasil KPI berisiko.
Antipola umum:
-
Mengonfigurasi terlalu banyak peringatan non-kritis, yang mengakibatkan kewalahan.
-
Tidak memprioritaskan peringatan berdasarkan KPI, sehingga dampak masalah terhadap bisnis menjadi sulit dipahami.
-
Mengabaikan penanganan akar masalah, yang berimbas pada peringatan yang repetitif untuk masalah yang sama.
Manfaat menjalankan praktik terbaik ini:
-
Berkurangnya kewalahan akibat peringatan dengan memusatkan perhatian pada peringatan yang dapat ditindaklanjuti dan relevan.
-
Waktu aktif dan keandalan sistem yang lebih baik melalui deteksi dan mitigasi masalah secara proaktif.
-
Kolaborasi tim yang disempurnakan dan penyelesaian masalah yang lebih cepat melalui integrasi alat-alat peringatan dan komunikasi populer.
Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Tinggi
Panduan implementasi
Untuk membuat mekanisme peringatan yang efektif, sangat penting untuk menggunakan metrik, log, dan data jejak yang menandai kapan hasil yang didasarkan pada KPI mengandung risiko atau terdapat anomali yang terdeteksi.
Langkah implementasi
-
Tentukan indikator kinerja utama (KPI): Identifikasikan KPI aplikasi Anda. Peringatan harus dikaitkan dengan KPI tersebut agar mencerminkan dampak bisnis secara akurat.
-
Implementasikan deteksi anomali:
-
Gunakan AWS Cost Anomaly Detection: Siapkan AWS Cost Anomaly Detection untuk secara otomatis mendeteksi pola yang tidak biasa, sehingga memastikan peringatan hanya dihasilkan untuk anomali asli.
-
Gunakan Wawasan X-Ray:
-
Siapkan Wawasan X-Ray untuk mendeteksi anomali dalam data jejak.
-
Konfigurasikan notifikasi untuk Wawasan X-Ray untuk menerima peringatan tentang masalah yang terdeteksi.
-
-
Integrasikan dengan DevOps Guru:
-
Manfaatkan Amazon DevOps Guru
untuk kemampuan machine learning-nya dalam mendeteksi anomali operasional pada data yang ada. -
Buka pengaturan notifikasi di dalam DevOps Guru untuk menyiapkan peringatan anomali.
-
-
-
Implementasikan peringatan yang dapat ditindaklanjuti: Rancang peringatan yang menyediakan informasi yang memadai untuk tindakan cepat.
-
Kurangi kewalahan akibat alarm: Minimalkan peringatan non-kritis. Tim yang kewalahan dengan banyaknya peringatan yang tidak penting dapat menyebabkan terlewatkannya masalah kritis dan mengurangi efektivitas mekanisme peringatan secara keseluruhan.
-
Siapkan alarm komposit: Gunakan alarm komposit Amazon CloudWatch
untuk menggabungkan beberapa alarm. -
Integrasikan dengan alat peringatan: Sertakan alat-alat seperti Ops Genie
dan PagerDuty . -
Libatkan Amazon Q Developer in chat applications Integrasikan Amazon Q Developer in chat applications
untuk mengirimkan peringatan ke Chime, Microsoft Teams, dan Slack. -
Buat peringatan berdasarkan log: Gunakan filter metrik log di CloudWatch untuk membuat alarm berdasarkan peristiwa log tertentu.
-
Tinjau dan lakukan iterasi: Tinjau dan sempurnakan konfigurasi peringatan secara rutin.
Tingkat upaya untuk rencana implementasi: Sedang.
Sumber daya
Praktik terbaik terkait:
Dokumen terkait:
Video terkait:
Contoh terkait: