OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah - AWS Well-Architected Framework

OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah

Organisasi Anda memiliki proses untuk menangani peristiwa, insiden, dan masalah. Peristiwa adalah hal-hal yang terjadi dalam beban kerja Anda, tetapi mungkin tidak memerlukan intervensi. Insiden adalah peristiwa yang memerlukan intervensi. Masalah adalah peristiwa berulang yang memerlukan intervensi atau tidak dapat diselesaikan. Anda memerlukan proses untuk mengurangi dampak peristiwa ini pada bisnis Anda dan memastikan bahwa Anda merespons dengan tepat.

Ketika insiden dan masalah terjadi pada beban kerja Anda, Anda memerlukan proses untuk menanganinya. Bagaimana Anda akan mengomunikasikan status peristiwa dengan pemangku kepentingan? Siapa yang mengawasi pelaksanaan respons? Apa alat yang Anda gunakan untuk memitigasi peristiwa? Ini adalah contoh dari beberapa pertanyaan yang perlu Anda jawab untuk memiliki proses respons yang solid.

Proses harus didokumentasikan di lokasi sentral dan tersedia bagi siapa saja yang terlibat dalam beban kerja Anda. Jika Anda tidak memiliki wiki atau penyimpanan dokumen sentral, repositori kontrol versi dapat digunakan. Anda akan terus memperbarui rencana ini seiring berkembangnya proses Anda.

Masalah merupakan kandidat untuk otomatisasi. Peristiwa ini mengambil waktu Anda yang seharusnya dihabiskan untuk berinovasi. Mulailah dengan membangun proses berulang untuk memitigasi masalah. Seiring waktu, fokuslah untuk mengotomatiskan mitigasi atau memperbaiki masalah mendasar. Tindakan ini akan membebaskan waktu yang kemudian dapat dihabiskan untuk melakukan peningkatan dalam beban kerja Anda.

Hasil yang diinginkan: Organisasi Anda memiliki proses untuk menangani peristiwa, insiden, dan masalah. Proses ini didokumentasikan dan disimpan di lokasi sentral. Dokumentasinya akan diperbarui seiring proses ini berubah.

Antipola umum:

  • Sebuah insiden terjadi pada akhir pekan dan teknisi yang berjaga tidak tahu harus melakukan tindakan apa.

  • Seorang pelanggan mengirimi Anda email bahwa aplikasi Anda tidak beroperasi. Anda melakukan booting ulang server untuk memperbaikinya. Hal ini sering terjadi.

  • Ada insiden yang mengharuskan banyak tim bekerja secara independen untuk mencoba menyelesaikannya.

  • Deployment terjadi dalam beban kerja Anda tanpa didokumentasikan.

Manfaat menjalankan praktik terbaik ini:

  • Anda memiliki jejak audit peristiwa dalam beban kerja Anda.

  • Waktu Anda untuk pulih dari insiden berkurang.

  • Anggota tim dapat menyelesaikan insiden dan masalah secara konsisten.

  • Ada upaya yang lebih terkonsolidasi ketika menyelidiki sebuah insiden.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Tinggi

Panduan implementasi

Menerapkan praktik terbaik ini berarti Anda melacak peristiwa beban kerja. Anda memiliki proses untuk menangani insiden dan masalah. Proses ini didokumentasikan, dibagikan, dan sering diperbarui. Masalah diidentifikasi, diprioritaskan, dan diperbaiki.

Contoh pelanggan

AnyCompany Retail mengkhususkan sebuah bagian dari wiki internal mereka untuk proses penanganan manajemen peristiwa, insiden, dan masalah. Semua peristiwa dikirim ke Amazon EventBridge. Masalah diidentifikasi sebagai OpsItems di AWS Systems Manager OpsCenter dan diprioritaskan untuk diperbaiki, sehingga mengurangi tenaga kerja yang tidak terdiferensiasi. Seiring proses ini berubah, dokumentasinya diperbarui di wiki internal mereka. Mereka menggunakan AWS Systems Manager Incident Manager untuk mengelola insiden dan mengoordinasikan upaya mitigasi.

Langkah implementasi

  1. Peristiwa

    • Lacak peristiwa yang terjadi dalam beban kerja Anda, meskipun tidak diperlukan intervensi manusia.

    • Bekerja sama dengan pemangku kepentingan beban kerja untuk mengembangkan daftar peristiwa yang harus dilacak. Beberapa contohnya adalah deployment yang diselesaikan atau patching yang berhasil.

    • Anda dapat menggunakan layanan seperti Amazon EventBridge atau Amazon Simple Notification Service untuk menghasilkan peristiwa kustom untuk pelacakan.

  2. Insiden

    • Mulailah dengan mendefinisikan rencana komunikasi untuk insiden. Pemangku kepentingan mana yang harus diinformasikan? Bagaimana Anda akan terus menginformasikan mereka? Siapa yang mengawasi upaya koordinasi? Kami merekomendasikan untuk membuat saluran obrolan internal untuk komunikasi dan koordinasi.

    • Tentukan jalur eskalasi untuk tim yang mendukung beban kerja Anda, terutama jika tim ini tidak memiliki rotasi jaga. Berdasarkan tingkat dukungan Anda, Anda juga dapat mengajukan kasus ke AWS Support.

    • Buat buku playbook untuk menyelidiki insiden. Playbook Ini harus berisi rencana komunikasi dan langkah penyelidikan yang mendetail. Sertakan tindakan memeriksa AWS Health Dashboard dalam penyelidikan Anda.

    • Dokumentasikan rencana respons insiden Anda. Komunikasikan rencana manajemen insiden agar pelanggan internal dan eksternal memahami aturan pelibatan dan apa yang diharapkan dari mereka. Latih anggota tim Anda tentang cara menggunakannya.

    • Pelanggan dapat menggunakan Incident Manager untuk mengatur dan mengelola rencana respons insiden mereka.

    • Pelanggan Enterprise Support dapat meminta Lokakarya Manajemen Insiden dari Manajer Akun Teknis mereka. Lokakarya berpemandu ini akan menguji rencana respons insiden yang ada dan membantu Anda mengidentifikasi area yang perlu ditingkatkan.

  3. Masalah

    • Masalah harus diidentifikasi dan dilacak dalam sistem ITSM Anda.

    • Identifikasi semua masalah yang diketahui dan prioritaskan berdasarkan tingkat upaya perbaikan dan dampak pada beban kerja.

      Matriks prioritas tindakan untuk memprioritaskan masalah.
    • Selesaikan masalah yang berdampak tinggi dan memerlukan tingkat upaya yang rendah terlebih dahulu. Setelah masalah tersebut diselesaikan, lanjutkan ke masalah yang termasuk dalam kuadran upaya rendah berdampak rendah.

    • Anda dapat menggunakan Systems Manager OpsCenter untuk mengidentifikasi masalah ini, menyediakan runbook yang sesuai, dan melacaknya.

Tingkat upaya untuk rencana implementasi: Sedang. Anda memerlukan proses dan alat untuk menerapkan praktik terbaik ini. Dokumentasikan proses Anda dan sediakan dokumentasi ini untuk siapa saja yang terkait dengan beban kerja. Perbarui dokumentasi ini secara rutin. Anda memiliki proses untuk mengelola dan memitigasi atau memperbaiki masalah.

Sumber daya

Praktik terbaik terkait:

Dokumen terkait:

Video terkait:

Contoh terkait:

Layanan terkait: