Menjalankan analisis pasca-insiden di Incident Manager - Incident Manager

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menjalankan analisis pasca-insiden di Incident Manager

Analisis pasca-insiden memandu Anda untuk mengidentifikasi peningkatan respons insiden Anda, termasuk waktu untuk mendeteksi dan mitigasi. Analisis juga dapat membantu Anda memahami akar penyebab insiden tersebut. Manajer Insiden membuat item tindakan yang direkomendasikan untuk meningkatkan respons insiden Anda.

Manfaat analisis pasca-insiden
  • Tingkatkan respons insiden

  • Memahami akar penyebab masalah

  • Atasi akar penyebab dengan item tindakan yang dapat dikirimkan

  • Menganalisis dampak insiden

  • Menangkap dan berbagi pembelajaran dalam suatu organisasi

Apa yang tidak menggunakan analisis untuk

Analisis tidak bersalah dan tidak memanggil orang dengan nama.

“Terlepas dari apa yang kami temukan, kami memahami dan benar-benar percaya bahwa setiap orang melakukan pekerjaan terbaik yang mereka bisa, mengingat apa yang mereka ketahui pada saat itu, keterampilan dan kemampuan mereka, sumber daya yang tersedia, dan situasi yang dihadapi.” - Norm Kerth, Retrospektif Proyek: Buku Pegangan untuk Tinjauan Tim

Rincian analisis

Halaman detail analisis memandu Anda melalui pengumpulan informasi, menilai peningkatan, dan membuat item tindakan. Halaman detail analisis mirip dengan detail insiden dengan beberapa perbedaan utama seperti metrik historis, garis waktu yang dapat diedit, dan pertanyaan untuk meningkatkan insiden masa depan.

Gambaran Umum

Gambaran umum adalah ringkasan dari insiden tersebut. Ringkasan ini mencakup latar belakang, apa yang terjadi, mengapa itu terjadi, bagaimana hal itu dikurangi, durasi, dan item tindakan utama untuk mencegah insiden terjadi lagi. Gambaran umum adalah tingkat tinggi. Anda akan menjelajahi detail lebih lanjut di tab Pertanyaan analisis.

Metrik

Gunakan tab metrik untuk memvisualisasikan metrik utama dalam aplikasi Anda selama durasi kejadian. Anda dapat menambahkan grafik metrik di sini yang memiliki satu atau lebih metrik yang digambarkan dalam grafik yang sama. Metrik yang digunakan selama insiden secara otomatis diisi di tab ini. Kami menyarankan Anda menambahkan deskripsi, judul, dan anotasi titik waktu utama selama kejadian.

Beberapa poin waktu penting yang dapat Anda pertimbangkan saat menganalisis grafik metrik:

  • Perubahan penerapan

  • Perubahan konfigurasi

  • Waktu mulai insiden

  • Waktu alarm

  • Waktu pertunangan

  • Waktu mulai mitigasi

  • Insiden diselesaikan waktu

Batasan
  • CloudWatch alarm dan ekspresi metrik tidak diimpor dari insiden.

  • Metrik yang berada di Wilayah yang tidak didukung Manajer Insiden tidak diimpor dari insiden tersebut.

  • Metrik dalam akun aplikasi memerlukan konfigurasi CloudWatch-CrossAccountSharingRole sebelum membuat analisis. Untuk informasi selengkapnya tentang peran tersebut, lihat CloudWatch Konsol Lintas Akun Lintas Wilayah di panduan CloudWatch pengguna.

Garis Waktu

Jelaskan titik-titik waktu penting pada garis waktu saat Anda menyelam lebih dalam untuk memahami insiden tersebut. Garis waktu insiden secara otomatis diisi di tab ini. Anda dapat menghapus titik waktu yang tidak relevan dengan analisis. Anda juga dapat menambahkan dan mengedit titik waktu untuk menggambarkan insiden dan dampaknya dengan lebih akurat.

Gunakan tab timeline untuk menjawab pertanyaan yang Anda temukan di tab Pertanyaan tentang respons insiden.

Pertanyaan

Gunakan pertanyaan Manajer Insiden untuk meningkatkan waktu penyelesaian insiden dalam aplikasi Anda dan mengurangi terjadinya insiden. Saat Anda menjawab pertanyaan, perbarui tab Metrik dan Garis Waktu untuk akurasi. Pertanyaan-pertanyaan berfokus pada aspek-aspek kunci dari respons insiden ini:

  • Deteksi — Bisakah Anda meningkatkan waktu untuk mendeteksi? Apakah ada pembaruan metrik dan alarm yang dapat mendeteksi insiden lebih dini?

  • Diagnosis — Dapatkah Anda meningkatkan waktu untuk diagnosis? Apakah ada pembaruan pada rencana respons atau rencana eskalasi Anda yang melibatkan perespons yang tepat lebih dini?

  • Mitigasi — Bisakah Anda meningkatkan waktu untuk mitigasi? Apakah ada langkah-langkah runbook yang dapat Anda tambahkan atau tingkatkan?

  • Pencegahan — Dapatkah Anda mencegah terjadinya insiden di masa depan? Untuk menemukan akar penyebab insiden, Amazon menggunakan pendekatan 5-Mengapa dalam penyelidikan masalah.

Tindakan

Manajer Insiden membuat item tindakan yang direkomendasikan untuk Anda tinjau saat Anda menyelesaikan pertanyaan. Anda dapat memilih untuk menerima dan menyelesaikan tindakan ini dari tab ini atau Anda dapat mengabaikan tindakan ini. Anda dapat meninjau item tindakan yang diberhentikan dengan memilih item tindakan yang diberhentikan. Item tindakan adalah jenis OpsItem yang terkait dengan analisis dan insiden di OpsCenter.

Daftar periksa

Sebelum menutup analisis, gunakan daftar periksa untuk meninjau tindakan yang harus diambil responden. Saat responden menyelesaikan tindakan dalam daftar periksa, ikon di sebelah tindakan berubah dari elips menjadi tanda centang, yang menunjukkan bahwa tindakan telah selesai. Jika Anda belum menyelesaikan item daftar periksa, Manajer Insiden akan menampilkan pesan untuk mengonfirmasi bahwa responden ingin menutup analisis tanpa menyelesaikannya.

Template analisis

Template analisis menyediakan serangkaian pertanyaan yang menyelam jauh ke dalam akar penyebab insiden. Anda dapat menggunakan jawaban Anda untuk pertanyaan-pertanyaan ini untuk meningkatkan kinerja aplikasi dan respons insiden.

AWS template standar

Manajer Insiden menyediakan templat pertanyaan standar berdasarkan respons AWS insiden dan praktik terbaik analisis masalah, berjudulAWSIncidents-PostIncidentAnalysisTemplate.

Buat template analisis

Kami mendorong Anda untuk menggunakan AWSIncidents-PostIncidentAnalysisTemplate templat default dan menambahkan pertanyaan atau bagian tambahan yang sesuai untuk kasus penggunaan Anda. Buat templat analisis berdasarkan templat default Gunakan templat ini sebagai titik awal untuk membuat templat analisis di akun manajemen Anda. Anda kemudian dapat menduplikasi templat analisis Anda ke setiap Wilayah tempat Anda mengaktifkan Manajer Insiden.

Buat template analisis
  1. Panggil GetDocument tindakan dan gunakan Name parameternya untuk mengunduhAWSIncidents-PostIncidentAnalysisTemplate. Untuk informasi selengkapnya tentang GetDocument sintaks, lihat APIReferensi Systems Manager.

  2. Konten dalam respons berisi blok JSON bangunan untuk analisis. Gunakan blok bangunan pertanyaan untuk memasukkan pertanyaan tambahan dalam analisis. Kami menyarankan Anda menambahkan pertanyaan atau bagian di Incident questions bagian ini.

  3. Untuk membuat template baru, gunakan CreateDocument operasi dengan yang diperbarui JSON dari langkah sebelumnya. Anda harus menyertakan yang berikut Analysis_Template_Name ini, di mana nama template Anda,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

Buat analisis

  1. Untuk membuat analisis, pilih Buat analisis dari halaman detail insiden insiden dari insiden tertutup.

  2. Pilih templat analisis untuk membuat analisis ini, dan masukkan nama deskriptif analisis.

  3. Pilih Buat.

Anda dapat menghasilkan salinan analisis lengkap atau tidak lengkap yang diformat untuk dicetak. Anda juga dapat menyimpan salinan ini sebagai filePDF. Anda dapat mencetak satu analisis pada satu waktu. Pencetakan batch dari beberapa analisis saat ini tidak didukung.

Untuk mencetak analisis yang diformat
  1. Buka konsol Manajer Insiden.

  2. Pilih tab Analisis.

  3. Pilih judul analisis yang ingin Anda cetak.

  4. Di sudut kanan atas halaman detail analisis, pilih Cetak.

  5. Dalam kotak dialog Analisis insiden cetak, kosongkan bagian analisis yang tidak ingin Anda sertakan dalam versi cetak. Secara default, semua bagian dipilih.

  6. Pilih Cetak untuk membuka kontrol cetak lokal untuk perangkat Anda.

  7. Pilih tujuan atau format pencetakan Anda. Anda dapat memilih printer lokal atau jaringan, atau Anda dapat menyimpan analisis ke filePDF. Buat perubahan apa pun, jika diinginkan, pada opsi pencetakan yang tersisa, lalu pilih Cetak.

    catatan

    Kontrol cetak lokal mengacu pada antarmuka pengguna yang disediakan oleh browser web dan perangkat Anda.

    Tujuan pencetakan adalah tujuan yang dikonfigurasi untuk, dan dapat diakses dari, perangkat Anda.