Merespons peristiwa

Anda harus mengantisipasi peristiwa operasional, baik yang terencana (seperti promo penjualan, deployment, dan uji kegagalan) dan yang tidak terencana (seperti lonjakan pemanfaatan dan kegagalan komponen). Anda harus menggunakan runbook dan buku pedoman yang Anda miliki untuk menghadirkan hasil yang konsisten ketika merespons pemberitahuan. Pemberitahuan yang ditetapkan harus dimiliki oleh sebuah peran atau tim yang bertanggung jawab atas respons dan eskalasi. Anda juga perlu mengetahui dampak komponen sistem Anda terhadap bisnis dan gunakan untuk menargetkan upaya saat diperlukan. Anda harus melakukan analisis akar masalah (RCA) setelah peristiwa, lalu mencegah kembali terjadinya kegagalan atau mendokumentasikan pemecahan masalah.

AWS menyederhanakan respons peristiwa Anda dengan menyediakan alat-alat yang mendukung semua aspek beban kerja dan operasi Anda dalam bentuk kode. Alat-alat ini memungkinkan Anda untuk membuat skrip respons terhadap peristiwa operasional dan memulai inisiasi skrip tersebut ketika merespons data pemantauan.

Di AWS, Anda dapat mempercepat waktu pemulihan dengan mengganti komponen yang gagal dengan versi komponen yang diketahui baik, alih-alih mencoba untuk memperbaikinya. Lalu Anda dapat menjalankan analisis terhadap sumber daya yang gagal tersebut di luar jaringan.

Praktik terbaik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

OPS09-BP03 Meninjau metrik operasi dan memprioritaskan peningkatan

OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah