Lampiran B - Ukuran kuantitatif dan kualitatif - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Lampiran B - Ukuran kuantitatif dan kualitatif

Bagian ini menguraikan metrik kuantitatif untuk melacak peningkatan operasional dan langkah-langkah kualitatif untuk menilai hasil organisasi yang lebih luas dari praktik rekayasa kekacauan.

Ukuran kuantitatif

Langkah-langkah kuantitatif berikut menyediakan kerangka kerja untuk melacak metrik utama yang dapat menunjukkan insiden langsung dan peningkatan operasional yang dicapai melalui praktik rekayasa kekacauan:

  • Insiden:

    • Frekuensi insiden - Lacak jumlah insiden dalam kerangka klasifikasi insiden dan klasifikasikan berdasarkan kekritisan mereka (kritis, besar, kecil) selama periode waktu tertentu. Untuk informasi lebih lanjut tentang kerangka klasifikasi insiden, lihat Lampiran C.

    • Waktu henti dan degradasi - Ukur total durasi waktu henti atau degradasi layanan untuk setiap klasifikasi insiden.

    • Metrik respons insiden - Untuk memahami insiden, mengukur Waktu untuk Mendeteksi, Waktu untuk Identifikasi, Waktu untuk Mengurangi, Waktu untuk Memulihkan, Waktu untuk Eskalasi, dan metrik terkait lainnya untuk setiap klasifikasi insiden.

    • Insiden yang berdampak pada pelanggan - Melacak jumlah insiden yang berdampak pada pelanggan atau persentase insiden yang terkandung sebelum dampak pelanggan.

    • Perubahan buku runbook - Lacak jumlah pembaruan atau revisi runbook yang dihasilkan dari wawasan yang diperoleh melalui eksperimen chaos. Runbook memberikan instruksi terperinci untuk melakukan operasi atau prosedur tertentu untuk pulih dari jenis insiden tertentu.

  • Biaya:

    • Biaya infrastruktur - Mengumpulkan data tentang biaya infrastruktur, termasuk sumber daya komputasi awan dan langkah-langkah redundansi yang diperlukan oleh tindakan yang diambil untuk meningkatkan ketahanan.

    • Dampak pelanggan — Mengukur dampak terhadap pengalaman pelanggan, churn rate, dan kerugian pendapatan yang terkait dengan kegagalan sistem atau downtime.

    • Produktivitas staf - Lacak waktu yang dihabiskan oleh tim teknik dan operasi pada respons insiden, pemadaman kebakaran, menulis postmortem, dan tugas reaktif lainnya yang terkait dengan kegagalan sistem.

  • Perbaikan sistem berkelanjutan — Hitung jumlah perbaikan proses, perubahan arsitektur, atau mekanisme pemulihan otomatis yang diterapkan sebagai akibat langsung dari wawasan dari eksperimen chaos.

  • Kepatuhan - Melacak biaya dan bekerja untuk memenuhi persyaratan peraturan atau standar industri yang terkait dengan ketahanan operasional.

  • Adopsi - Lacak tingkat adopsi praktik kekacauan di seluruh organisasi.

  • Kepuasan pelanggan — Mengukur perubahan dalam metrik kepuasan pelanggan untuk mengukur bagaimana peningkatan keandalan sistem mempengaruhi bisnis.

Langkah-langkah kualitatif

Langkah-langkah kualitatif berikut menyediakan kerangka kerja untuk melacak hasil organisasi yang lebih luas yang dicapai melalui praktik rekayasa kekacauan:

  • Keyakinan dan kesiapan karyawan:

    • Tim survei secara berkala untuk mengukur tingkat kepercayaan mereka dalam menangani insiden dunia nyata dan kesiapan mereka yang dirasakan untuk rotasi on-call.

    • Lacak persentase insinyur panggilan yang telah berpartisipasi dalam eksperimen kekacauan sebagai bagian dari pelatihan mereka.

  • Pergeseran budaya:

    • Menilai sejauh mana pola pikir ketahanan telah meresap ke organisasi melalui survei, sesi umpan balik, atau audit.

    • Lacak jumlah tim yang secara aktif memperjuangkan dan mengadvokasi praktik rekayasa kekacauan.

  • Kolaborasi lintas fungsi dan berbagi pengetahuan:

    • Lacak frekuensi dan kehadiran sesi berbagi pengetahuan lintas tim atau lokakarya yang terkait dengan pembelajaran teknik kekacauan.

    • Lacak jumlah inisiatif rekayasa kekacauan bersama yang melibatkan banyak tim atau departemen.

  • Efektivitas pelatihan:

    • Mengevaluasi efektivitas program pelatihan rekayasa kekacauan dengan melakukan survei atau penilaian pasca-pelatihan.

    • Lacak jumlah insinyur yang berpartisipasi dalam program pelatihan rekayasa kekacauan dan baca postmortem.

  • Daya tarik dan retensi bakat:

    • Mengevaluasi apakah program rekayasa kekacauan membantu menarik dan mempertahankan bakat teknik terbaik dengan mengurangi waktu dan upaya yang dihabiskan untuk memperbaiki pemadaman.

  • Reputasi merek:

    • Lacak setiap perubahan dalam persepsi merek atau reputasi yang terkait dengan komitmen organisasi yang ditunjukkan terhadap ketahanan operasional.

  • Keunggulan kompetitif:

    • Lacak keunggulan kompetitif dibandingkan rekan-rekan industri dalam hal ketersediaan sistem.