OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti - AWS Well-Architected Framework

OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti

Sangat penting mendeteksi dan merespons penyimpangan dalam perilaku aplikasi Anda segera. Lebih penting lagi adalah mengenali ketika hasil yang didasarkan pada indikator kinerja utama (KPI) terpapar risiko atau ketika anomali tak terduga muncul. Mendasarkan peringatan pada KPI memastikan bahwa sinyal yang Anda terima berkaitan langsung dengan dampak bisnis atau operasional. Pendekatan terhadap peringatan yang dapat ditindaklanjuti ini mempromosikan respons proaktif dan membantu mempertahankan performa dan keandalan sistem.

Hasil yang diinginkan: Terima peringatan yang tepat waktu, relevan, dan dapat ditindaklanjuti untuk identifikasi dan mitigasi potensi masalah dengan cepat, terutama ketika hasil KPI berisiko.

Antipola umum:

  • Mengonfigurasi terlalu banyak peringatan non-kritis, yang mengakibatkan kewalahan.

  • Tidak memprioritaskan peringatan berdasarkan KPI, sehingga dampak masalah terhadap bisnis menjadi sulit dipahami.

  • Mengabaikan penanganan akar masalah, yang berimbas pada peringatan yang repetitif untuk masalah yang sama.

Manfaat menjalankan praktik terbaik ini:

  • Berkurangnya kewalahan akibat peringatan dengan memusatkan perhatian pada peringatan yang dapat ditindaklanjuti dan relevan.

  • Waktu aktif dan keandalan sistem yang lebih baik melalui deteksi dan mitigasi masalah secara proaktif.

  • Kolaborasi tim yang disempurnakan dan penyelesaian masalah yang lebih cepat melalui integrasi alat-alat peringatan dan komunikasi populer.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Tinggi

Panduan implementasi

Untuk membuat mekanisme peringatan yang efektif, sangat penting untuk menggunakan metrik, log, dan data jejak yang menandai kapan hasil yang didasarkan pada KPI mengandung risiko atau terdapat anomali yang terdeteksi.

Langkah implementasi

  1. Tentukan indikator kinerja utama (KPI): Identifikasi KPI aplikasi Anda. Peringatan harus dikaitkan dengan KPI tersebut agar mencerminkan dampak bisnis secara akurat.

  2. Implementasikan deteksi anomali:

    • Gunakan deteksi anomali Amazon CloudWatch: Siapkan deteksi anomali Amazon CloudWatch untuk mendeteksi pola yang tidak biasa secara otomatis, yang membantu Anda hanya menghasilkan peringatan untuk anomali nyata.

    • Gunakan Wawasan AWS X-Ray:

      1. Siapkan Wawasan X-Ray untuk mendeteksi anomali dalam data jejak.

      2. Konfigurasikan notifikasi agar Wawasan X-Ray menerima peringatan tentang masalah yang terdeteksi.

    • Integrasikan dengan Amazon DevOps Guru:

      1. Manfaatkan Amazon DevOps Guru untuk kemampuan machine learning-nya dalam mendeteksi anomali operasional pada data yang ada.

      2. Buka pengaturan notifikasi di DevOps Guru untuk menyiapkan peringatan anomali.

  3. Implementasikan peringatan yang dapat ditindaklanjuti: Rancang peringatan yang menyediakan informasi yang memadai untuk tindakan cepat.

    1. Pantau peristiwa AWS Health dengan aturan Amazon EventBridge, atau integrasikan secara terprogram dengan API AWS Health untuk mengotomatiskan tindakan saat Anda menerima peristiwa AWS Health. Tindakan tersebut dapat berupa tindakan umum, seperti mengirimkan semua pesan peristiwa siklus hidup yang direncanakan ke antarmuka obrolan, atau tindakan khusus seperti inisiasi alur kerja di alat manajemen layanan IT.

  4. Kurangi kelelahan akibat peringatan: Minimalkan peringatan non-kritis. Ketika tim kewalahan dengan banyaknya peringatan yang tidak penting, mereka dapat melewatkan masalah kritis, sehingga mengurangi efektivitas mekanisme peringatan secara keseluruhan.

  5. Siapkan alarm komposit: Gunakan alarm komposit Amazon CloudWatch untuk mengonsolidasikan beberapa alarm.

  6. Integrasikan dengan alat peringatan: Gabungkan alat seperti Ops Genie dan PagerDuty.

  7. Libatkan AWS Chatbot: Integrasikan AWS Chatbot untuk mengirimkan peringatan ke Amazon Chime, Microsoft Teams, dan Slack.

  8. Buat peringatan berdasarkan log: Gunakan filter metrik log di CloudWatch untuk membuat alarm berdasarkan peristiwa log tertentu.

  9. Tinjau dan lakukan iterasi: Tinjau dan sempurnakan konfigurasi peringatan secara rutin.

Tingkat upaya untuk rencana implementasi: Sedang

Sumber daya

Praktik Terbaik Terkait:

Dokumen terkait:

Video terkait:

Contoh terkait: