OPS10-BP02 Memiliki proses per peringatan - Pilar Keunggulan Operasional

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

OPS10-BP02 Memiliki proses per peringatan

Menetapkan proses yang jelas dan terdefinisi untuk setiap peringatan di dalam sistem Anda sangat penting untuk manajemen insiden yang efektif dan efisien. Praktik ini memastikan bahwa setiap peringatan menghasilkan respons spesifik yang dapat ditindaklanjuti, sehingga meningkatkan keandalan dan responsivitas operasi Anda.

Hasil yang diinginkan: Setiap peringatan memulai rencana respons spesifik dan terdefinisi dengan baik. Jika memungkinkan, respons dilakukan secara otomatis, dengan kepemilikan yang jelas dan jalur eskalasi yang sudah ditentukan. Peringatan ditautkan ke basis up-to-date pengetahuan sehingga operator mana pun dapat merespons secara konsisten dan efektif. Respons diberikan secara cepat dan seragam, sehingga meningkatkan efisiensi dan keandalan operasional.

Anti-pola umum:

  • Peringatan tidak memiliki proses respons yang telah ditentukan sebelumnya, sehingga menyebabkan resolusi yang seadanya dan tertunda.

  • Jumlah peringatan yang terlalu banyak dapat menyebabkan terabaikannya peringatan-peringatan penting.

  • Peringatan-peringatan ditangani secara tidak konsisten karena tidak adanya kepemilikan dan tanggung jawab yang jelas.

Manfaat menjalankan praktik terbaik ini:

  • Mengurangi kewalahan akibat peringatan dengan hanya memunculkan peringatan yang dapat ditindaklanjuti.

  • Penurunan waktu rata-rata untuk resolusi (MTTR) untuk masalah operasional.

  • Penurunan waktu rata-rata untuk menyelidiki (MTTI), yang membantu mengurangiMTTR.

  • Peningkatan kemampuan untuk menskalakan respons-respons operasional.

  • Peningkatan konsistensi dan keandalan dalam menangani peristiwa-peristiwa operasional.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Tinggi

Panduan implementasi

Untuk membuat sebuah proses untuk setiap peringatan, diperlukan pembuatan rencana respons yang jelas untuk setiap peringatan, otomatisasi respons apabila memungkinkan, dan penyempurnaan proses-proses ini secara berkelanjutan berdasarkan umpan balik operasional dan perubahan persyaratan.

Langkah-langkah implementasi

Diagram berikut ini menggambarkan alur kerja manajemen insiden di dalam AWS Systems Manager Incident Manager. Ini dirancang untuk merespons dengan cepat masalah operasional dengan secara otomatis membuat insiden sebagai respons terhadap peristiwa tertentu dari Amazon atau CloudWatch Amazon. EventBridge Ketika insiden dibuat, baik secara otomatis atau manual, Manajer Insiden memusatkan manajemen insiden, mengatur informasi AWS sumber daya yang relevan, dan memulai rencana respons yang telah ditentukan sebelumnya. Ini termasuk menjalankan runbook Systems Manager Automation untuk tindakan segera, serta membuat item kerja operasional induk OpsCenter untuk melacak tugas dan analisis terkait. Proses yang disederhanakan ini mempercepat dan mengoordinasikan respons insiden di seluruh lingkungan Anda AWS .

Diagram alur yang menggambarkan cara kerja Manajer Insiden - AWS Chatbot, rencana dan kontak eskalasi, dan runbook mengalir ke rencana respons, yang mengalir ke insiden dan analisis. Amazon CloudWatch juga mengalir ke rencana respons.

  1. Gunakan alarm komposit: Buat alarm komposit CloudWatch untuk mengelompokkan alarm terkait, mengurangi kebisingan dan memungkinkan respons yang lebih bermakna.

  2. Integrasikan CloudWatch alarm Amazon dengan Manajer Insiden Konfigurasikan CloudWatch alarm untuk membuat insiden secara otomatis. AWS Systems Manager Incident Manager

  3. Integrasikan Amazon EventBridge dengan Manajer Insiden: Buat EventBridge aturan untuk bereaksi terhadap peristiwa dan membuat insiden menggunakan rencana respons yang ditentukan.

  4. Mempersiapkan insiden di Incident Manager:

    • Buat rencana respons terperinci di Incident Manager untuk setiap jenis peringatan.

    • Buat saluran obrolan melalui AWS Chatbot yang terhubung ke rencana respons di Incident Manager, yang akan memfasilitasi komunikasi waktu nyata selama insiden di seluruh platform seperti Slack, Microsoft Teams, dan Amazon Chime.

    • Menggabungkan runbook Systems Manager Automation dalam Incident Manager untuk mendorong respons otomatis terhadap insiden.

Sumber daya

Praktik-praktik terbaik terkait:

Dokumen terkait:

Video terkait:

Contoh terkait: