OPS08-BP04 Buat lansiran yang dapat ditindaklanjuti - Pilar Keunggulan Operasional

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

OPS08-BP04 Buat lansiran yang dapat ditindaklanjuti

Sangat penting untuk mendeteksi dan merespons penyimpangan dalam perilaku aplikasi Anda segera. Terutama penting adalah mengenali kapan hasil berdasarkan indikator kinerja utama (KPIs) berisiko atau ketika anomali tak terduga muncul. Mendasarkan peringatan pada KPIs memastikan bahwa sinyal yang Anda terima terkait langsung dengan dampak bisnis atau operasional. Pendekatan terhadap peringatan yang dapat ditindaklanjuti ini mempromosikan respons proaktif dan akan membantu Anda untuk mempertahankan performa dan keandalan sistem.

Hasil yang diinginkan: Menerima peringatan yang tepat waktu, relevan, dan dapat ditindaklanjuti untuk identifikasi cepat dan mitigasi masalah potensial, terutama ketika KPI hasil berisiko.

Anti-pola umum:

  • Menyiapkan terlalu banyak peringatan non-kritis, yang mengakibatkan kewalahan.

  • Tidak memprioritaskan peringatan berdasarkanKPIs, sehingga sulit untuk memahami dampak bisnis dari masalah.

  • Mengabaikan penanganan akar masalah, yang berimbas pada munculnya peringatan berulang untuk masalah yang sama.

Manfaat menjalankan praktik terbaik ini:

  • Berkurangnya kewalahan akibat peringatan dengan memusatkan perhatian pada peringatan-peringatan yang dapat ditindaklanjuti dan relevan.

  • Waktu aktif dan keandalan sistem yang lebih baik melalui deteksi dan mitigasi masalah yang proaktif.

  • Kolaborasi tim yang disempurnakan dan penyelesaian masalah yang lebih cepat dengan melakukan integrasi alat-alat peringatan dan komunikasi populer.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Tinggi

Panduan implementasi

Untuk membuat mekanisme peringatan yang efektif, sangat penting untuk menggunakan metrik, log, dan data pelacakan yang menandai ketika hasil berdasarkan KPIs risiko atau anomali terdeteksi.

Langkah-langkah implementasi

  1. Tentukan indikator kinerja utama (KPIs): Identifikasi aplikasi AndaKPIs. Peringatan harus dikaitkan dengan ini KPIs untuk mencerminkan dampak bisnis secara akurat.

  2. Implementasikan deteksi anomali:

    • Gunakan deteksi CloudWatch anomali Amazon: Siapkan deteksi CloudWatch anomali Amazon untuk mendeteksi pola yang tidak biasa secara otomatis, yang membantu Anda hanya menghasilkan peringatan untuk anomali asli.

    • Gunakan AWS X-Ray Wawasan:

      1. Siapkan Wawasan X-Ray untuk mendeteksi anomali dalam data jejak.

      2. Konfigurasikan notifikasi untuk Wawasan X-Ray agar Anda mendapat notifikasi tentang masalah yang terdeteksi.

    • Integrasikan dengan Amazon DevOps Guru:

      1. Manfaatkan Amazon DevOps Guru untuk kemampuan pembelajaran mesinnya dalam mendeteksi anomali operasional dengan data yang ada.

      2. Arahkan ke pengaturan notifikasi di DevOps Guru untuk mengatur peringatan anomali.

  3. Implementasikan peringatan yang dapat ditindaklanjuti: Rancang peringatan yang menyediakan informasi yang memadai untuk tindakan cepat.

    1. Pantau AWS Health peristiwa dengan EventBridge aturan Amazon, atau integrasikan secara terprogram dengan tindakan AWS Health API untuk mengotomatisasi saat Anda menerima AWS Health acara. Ini bisa berupa tindakan-tindakan umum, seperti mengirimkan semua pesan peristiwa siklus hidup yang direncanakan ke antarmuka obrolan, atau tindakan tertentu, seperti inisiasi alur kerja di alat manajemen layanan IT.

  4. Kurangi kelelahan karena peringatan: Minimalkan peringatan non-kritis. Ketika tim kewalahan dengan banyaknya peringatan yang tidak penting, mereka bisa jadi melewatkan masalah-masalah kritis, sehingga mengurangi efektivitas mekanisme peringatan secara keseluruhan.

  5. Siapkan alarm komposit: Gunakan alarm CloudWatch komposit Amazon untuk mengkonsolidasikan beberapa alarm.

  6. Integrasikan dengan alat peringatan: Gabungkan alat seperti Ops Genie dan PagerDuty.

  7. Terlibat AWS Chatbot: Integrasikan AWS Chatbotuntuk menyampaikan peringatan ke Amazon Chime, Microsoft Teams, dan Slack.

  8. Peringatan berdasarkan log: Gunakan filter metrik log CloudWatch untuk membuat alarm berdasarkan peristiwa log tertentu.

  9. Tinjau dan ulangi: Tinjau ulang dan sempurnakan konfigurasi peringatan secara rutin.

Tingkat upaya untuk rencana implementasi: Sedang

Sumber daya

Praktik-praktik terbaik terkait:

Dokumen terkait:

Video terkait:

Contoh terkait: