Merespons peristiwa - Pilar Keunggulan Operasional

Merespons peristiwa

Anda harus mengantisipasi peristiwa operasional, baik yang terencana (seperti promo penjualan, deployment, dan uji kegagalan) dan yang tidak terencana (seperti lonjakan pemanfaatan dan kegagalan komponen). Anda harus menggunakan runbook dan buku pedoman yang Anda miliki untuk menghadirkan hasil yang konsisten ketika merespons pemberitahuan. Pemberitahuan yang ditetapkan harus dimiliki oleh sebuah peran atau tim yang bertanggung jawab atas respons dan eskalasi. Anda juga perlu mengetahui dampak komponen sistem Anda terhadap bisnis dan gunakan untuk menargetkan upaya saat diperlukan. Anda harus melakukan analisis akar masalah (RCA) setelah peristiwa, lalu mencegah kembali terjadinya kegagalan atau mendokumentasikan pemecahan masalah.

AWS menyederhanakan respons peristiwa Anda dengan menyediakan alat-alat yang mendukung semua aspek beban kerja dan operasi Anda dalam bentuk kode. Alat-alat ini memungkinkan Anda untuk membuat skrip respons terhadap peristiwa operasional dan memulai inisiasi skrip tersebut ketika merespons data pemantauan.

Di AWS, Anda dapat mempercepat waktu pemulihan dengan mengganti komponen yang gagal dengan versi komponen yang diketahui baik, alih-alih mencoba untuk memperbaikinya. Lalu Anda dapat menjalankan analisis terhadap sumber daya yang gagal tersebut di luar jaringan.