OPS10-BP01 Gunakan proses untuk manajemen peristiwa, insiden, dan masalah - Pilar Keunggulan Operasional

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

OPS10-BP01 Gunakan proses untuk manajemen peristiwa, insiden, dan masalah

Kemampuan untuk mengelola peristiwa, insiden, dan masalah secara efisien adalah kunci untuk menjaga kondisi kesehatan dan kinerja beban kerja. Sangat penting untuk mengenali dan memahami perbedaan antara elemen-elemen ini untuk mengembangkan sebuah strategi respons dan resolusi yang efektif. Dengan membentuk dan mengikuti proses yang ditentukan dengan baik untuk setiap aspek, tim Anda dapat dengan cepat dan efektif menangani setiap tantangan operasional yang muncul.

Hasil yang diinginkan: Organisasi Anda mengelola peristiwa-peristiwa operasional, insiden, dan masalah secara efektif melalui proses yang terdokumentasi dengan baik dan tersimpan secara terpusat. Proses-proses tersebut diperbarui secara konsisten untuk mencerminkan setiap perubahan, merampingkan proses penanganan, dan mempertahankan keandalan layanan serta kinerja beban kerja yang tinggi.

Anti-pola umum:

  • Anda merespons peristiwa secara reaktif, bukan proaktif.

  • Pendekatan-pendekatan yang tidak konsisten diambil untuk berbagai jenis peristiwa atau insiden yang berbeda.

  • Organisasi Anda tidak menganalisis dan belajar dari insiden-insiden yang terjadi untuk mencegah kejadian di masa mendatang.

Manfaat menjalankan praktik terbaik ini:

  • Proses respons yang efisien dan terstandardisasi.

  • Berkurangnya dampak insiden pada layanan dan pelanggan.

  • Resolusi masalah yang lebih cepat.

  • Perbaikan berkelanjutan dalam proses operasional.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Tinggi

Panduan implementasi

Menerapkan praktik terbaik ini berarti Anda melacak peristiwa-peristiwa beban kerja. Anda memiliki proses untuk menangani insiden dan masalah. Proses ini didokumentasikan, dibagikan, dan sering diperbarui. Masalah diidentifikasi, diprioritaskan, dan diperbaiki.

Memahami peristiwa, insiden, dan masalah

  • Peristiwa: Sebuah peristiwa adalah sebuah pengamatan atas suatu tindakan, kejadian, atau perubahan status. Peristiwa dapat direncanakan atau tidak direncanakan dan dapat berasal dari dalam atau luar beban kerja.

  • Insiden: Insiden adalah peristiwa-peristiwa yang memerlukan respons, seperti gangguan yang tidak terencana atau penurunan kualitas layanan. Insiden-insiden tersebut mewakili gangguan yang membutuhkan perhatian cepat untuk memulihkan operasi beban kerja yang normal.

  • Masalah: Masalah adalah penyebab-penyebab yang mendasari satu atau beberapa insiden. Mengidentifikasi dan menyelesaikan masalah mencakup langkah-langkah untuk menyelidiki insiden dengan lebih mendalam untuk mencegah kejadian di masa mendatang.

Langkah-langkah implementasi

Peristiwa

  1. Memantau peristiwa:

  2. Ciptakan proses:

    • Kembangkan sebuah proses untuk menilai peristiwa mana yang signifikan dan memerlukan pemantauan. Langkah ini melibatkan pengaturan ambang batas dan parameter untuk aktivitas normal dan abnormal.

    • Tentukan kriteria eskalasi suatu peristiwa menjadi insiden. Kriteria ini dapat didasarkan pada tingkat keparahan, dampak yang ditimbulkan pada pengguna, atau penyimpangan dari perilaku yang diperkirakan.

    • Lakukan peninjauan terhadap proses pemantauan dan respons peristiwa secara rutin. Langkah ini mencakup analisis insiden masa lalu, penyesuaian ambang batas, dan penyempurnaan mekanisme pembuatan peringatan.

Insiden

  1. Merespons insiden:

    • Gunakan wawasan dari alat-alat observabilitas untuk mengidentifikasi dan merespons insiden dengan cepat.

    • Implementasikan AWS Systems Manager Ops Center untuk mengagregasi, mengatur, dan memprioritaskan item dan insiden operasional.

    • Gunakan layanan seperti Amazon CloudWatch dan AWS X-Rayuntuk analisis dan pemecahan masalah yang lebih dalam.

    • Pertimbangkan AWS Managed Services (AMS) untuk meningkatkan manajemen insiden, memanfaatkan kemampuan proaktif, pencegahan, dan detektifnya. AMSmemperluas dukungan operasional dengan layanan seperti pemantauan, deteksi dan respons insiden, dan manajemen keamanan.

    • Pelanggan Dukungan Perusahaan dapat menggunakan Deteksi dan Respons Insiden AWS, yang akan menyediakan pemantauan proaktif terus-menerus dan manajemen insiden untuk beban kerja produksi.

  2. Buat proses manajemen insiden:

    • Tetapkan sebuah proses manajemen insiden yang terstruktur, termasuk peran yang jelas, protokol komunikasi, dan langkah-langkah penyelesaian masalah.

    • Integrasikan manajemen insiden dengan alat seperti AWS Chatbot untuk mendapatkan respons dan koordinasi yang efisien.

    • Kategorikan insiden berdasarkan tingkat keparahan, dengan rencana respons insiden yang telah ditentukan sebelumnya untuk masing-masing kategori.

  3. Pelajari dan tingkatkan:

    • Lakukan analisis pasca-insiden untuk memahami akar penyebab masalah dan efektivitas penyelesaian masalah.

    • Lakukan pembaruan dan peningkatan secara berkelanjutan terhadap rencana-rencana respons berdasarkan tinjauan dan praktik yang berkembang.

    • Buatlah dokumentasi dari dan bagikan pelajaran yang diperoleh ke seluruh tim untuk meningkatkan ketahanan operasional.

    • Pelanggan Dukungan Perusahaan dapat meminta Lokakarya Manajemen Insiden dari Manajer Akun Teknis mereka. Lokakarya terpandu ini akan menguji rencana respons insiden yang ada sekarang dan akan membantu Anda mengidentifikasi area-area yang perlu ditingkatkan.

Masalah

  1. Identifikasi masalah:

    • Gunakan data dari insiden-insiden sebelumnya untuk mengidentifikasi pola-pola yang berulang yang mungkin menandakan adanya masalah sistemik yang lebih mendalam.

    • Manfaatkan alat seperti AWS CloudTraildan Amazon CloudWatch untuk menganalisis tren dan mengungkap masalah mendasar.

    • Libatkan tim lintas fungsi, termasuk tim operasional, pengembangan, dan unit bisnis, untuk mendapatkan perspektif yang beragam tentang akar penyebab masalah.

  2. Buat proses manajemen masalah:

    • Kembangkan sebuah proses terstruktur untuk manajemen masalah, dengan fokus pada penyelesaian masalah jangka panjang, bukan perbaikan-perbaikan cepat.

    • Menggabungkan teknik analisis akar penyebab (RCA) untuk menyelidiki dan memahami penyebab yang mendasari insiden.

    • Perbarui kebijakan operasional, prosedur, dan infrastruktur berdasarkan temuan yang didapatkan untuk mencegah terulangnya kejadian.

  3. Terus lakukan perbaikan:

    • Pupuk budaya pembelajaran dan perbaikan yang konstan, dengan mendorong tim untuk mengidentifikasi dan mengatasi setiap potensi masalah secara proaktif.

    • Tinjau dan revisi proses dan alat manajemen masalah agar selaras dengan lanskap bisnis dan teknologi yang berkembang.

    • Bagikan wawasan dan praktik terbaik ke seluruh organisasi untuk membangun sebuah lingkungan operasional yang lebih tangguh dan efisien.

  4. Terlibat AWS Support:

    • Gunakan sumber daya AWS dukungan, seperti AWS Trusted Advisor, untuk panduan proaktif dan rekomendasi pengoptimalan.

    • Pelanggan Dukungan Perusahaan dapat mengakses program khusus seperti AWS Countdown untuk mendapatkan dukungan saat terjadi peristiwa kritis.

Tingkat upaya untuk rencana implementasi: Sedang

Sumber daya

Praktik-praktik terbaik terkait:

Dokumen terkait:

Video terkait:

Contoh terkait:

Layanan terkait: