OPS11-BP02 Menjalankan analisis setelah insiden - AWS Well-Architected Framework

OPS11-BP02 Menjalankan analisis setelah insiden

Tinjau peristiwa yang memengaruhi pelanggan dan identifikasi faktor yang berkontribusi serta tindakan pencegahannya. Gunakan informasi ini untuk mengembangkan mitigasi guna meminimalkan atau mencegah kemungkinan terjadi lagi. Kembangkan prosedur untuk respons efektif dan cepat. Komunikasikan faktor yang berkontribusi dan tindakan korektif yang diperlukan, yang disesuaikan dengan audiens target.

Hasil yang diinginkan:

  • Anda telah menetapkan proses manajemen insiden yang mencakup analisis pascainsiden.

  • Anda menerapkan rencana observabilitas untuk mengumpulkan data tentang peristiwa.

  • Dengan data ini, Anda memahami dan mengumpulkan metrik yang mendukung proses analisis pascainsiden Anda.

  • Anda belajar dari insiden untuk meningkatkan hasil di masa depan.

Antipola umum:

  • Anda mengelola server aplikasi. Kira-kira setiap 23 jam 55 menit, semua sesi aktif Anda dihapus. Anda berupaya mengidentifikasi masalah yang terjadi di server aplikasi Anda. Anda menduga bahwa ini mungkin masalah jaringan, tetapi tidak dapat memperoleh bantuan dari tim jaringan karena mereka terlalu sibuk. Anda tidak menetapkan proses di awal yang dapat Anda jadikan panduan untuk mendapatkan dukungan dan mengumpulkan informasi yang dibutuhkan guna mengetahui masalah yang sedang terjadi.

  • Anda mengalami kehilangan data di dalam beban kerja Anda. Hal ini baru pertama kali terjadi dan penyebabnya belum jelas. Anda menganggap bahwa kejadian ini tidak penting karena Anda dapat membuat ulang data. Kehilangan data makin sering terjadi dan memengaruhi pelanggan Anda. Hal ini juga menambah beban operasional Anda karena harus memulihkan data yang hilang.

Manfaat menjalankan praktik terbaik ini:

  • Anda memiliki proses yang telah ditetapkan di awal untuk menentukan komponen, kondisi, tindakan, dan peristiwa yang berkontribusi terhadap suatu insiden, yang membantu Anda mengidentifikasi peluang untuk perbaikan.

  • Anda menggunakan data dari analisis pascainsiden untuk melakukan perbaikan.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Tinggi

Panduan implementasi

Gunakan proses untuk menentukan faktor yang berkontribusi. Tinjau semua insiden yang memengaruhi pelanggan. Buat sebuah proses untuk mengidentifikasi dan mendokumentasi faktor yang berkontribusi terhadap insiden agar Anda dapat mengembangkan mitigasi untuk membatasi atau mencegah kejadian serupa serta mengembangkan prosedur untuk merespons dengan cepat dan efektif. Komunikasikan akar masalah insiden sebagaimana mestinya, dan sesuaikan komunikasi dengan audiens target Anda. Bagikan pembelajaran secara terbuka di dalam organisasi Anda.

Langkah implementasi

  1. Kumpulkan metrik seperti perubahan deployment, perubahan konfigurasi, waktu mulai insiden, waktu alarm, waktu keterlibatan, waktu mulai mitigasi, dan waktu penyelesaian insiden.

  2. Jelaskan titik-titik waktu utama pada lini waktu untuk memahami peristiwa insiden.

  3. Ajukan pertanyaan-pertanyaan berikut:

    1. Apakah Anda dapat mempersingkat waktu deteksi?

    2. Apakah ada pembaruan metrik dan alarm yang dapat mendeteksi insiden lebih dini?

    3. Apakah Anda dapat mempersingkat waktu diagnosis?

    4. Apakah ada pembaruan pada rencana respons atau rencana eskalasi Anda yang melibatkan perespons yang tepat lebih dini?

    5. Apakah Anda dapat mempersingkat waktu mitigasi?

    6. Apakah ada langkah-langkah runbook atau panduan yang dapat Anda tambahkan atau tingkatkan?

    7. Apakah Anda dapat mencegah terjadinya insiden di masa mendatang?

  4. Buat daftar periksa dan tindakan. Lacak dan selesaikan semua tindakan.

Tingkat upaya untuk rencana implementasi: Sedang

Sumber daya

Praktik Terbaik Terkait:

Dokumen terkait: