Merespons peristiwa
Anda harus mengantisipasi peristiwa operasional, baik yang terencana (seperti promo penjualan, deployment, dan uji kegagalan) dan yang tidak terencana (seperti lonjakan pemanfaatan dan kegagalan komponen). Anda harus menggunakan runbook dan buku pedoman yang Anda miliki untuk menghadirkan hasil yang konsisten ketika merespons pemberitahuan. Pemberitahuan yang ditetapkan harus dimiliki oleh sebuah peran atau tim yang bertanggung jawab atas respons dan eskalasi. Anda juga perlu mengetahui dampak komponen sistem Anda terhadap bisnis dan gunakan untuk menargetkan upaya saat diperlukan. Anda harus melakukan analisis akar masalah (RCA) setelah peristiwa, lalu mencegah kembali terjadinya kegagalan atau mendokumentasikan pemecahan masalah.
AWS menyederhanakan respons peristiwa Anda dengan menyediakan alat-alat yang mendukung semua aspek beban kerja dan operasi Anda dalam bentuk kode. Alat-alat ini memungkinkan Anda untuk membuat skrip respons terhadap peristiwa operasional dan memulai inisiasi skrip tersebut ketika merespons data pemantauan.
Di AWS, Anda dapat mempercepat waktu pemulihan dengan mengganti komponen yang gagal dengan versi komponen yang diketahui baik, alih-alih mencoba untuk memperbaikinya. Lalu Anda dapat menjalankan analisis terhadap sumber daya yang gagal tersebut di luar jaringan.
Praktik terbaik
- OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah
- OPS10-BP02 Menjalankan proses untuk setiap peringatan
- OPS10-BP03 Memprioritaskan peristiwa operasional berdasarkan dampaknya terhadap bisnis
- OPS10-BP04 Tetapkan jalur eskalasi
- OPS10-BP05 Menentukan rencana komunikasi pelanggan untuk peristiwa yang berdampak pada layanan
- OPS10-BP06 Mengomunikasikan status melalui dasbor
- OPS10-BP07 Melakukan otomatisasi respons terhadap peristiwa