Biaya downtime dan munculnya chaos engineering - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Biaya downtime dan munculnya chaos engineering

Information Technology Intelligence Consulting (ITIC) memperkirakan bahwa 90 persen perusahaan menghadapi biaya melebihi $300.000 per jam downtime, dengan 41 persen melebihi $1-5 juta per jam. Selain pendapatan yang hilang segera, downtime dapat menyebabkan masalah jangka panjang, termasuk kegagalan kepatuhan, penurunan harga saham, biaya mitigasi yang signifikan, dan bahkan kerusakan merek.

Sementara downtime umumnya dikaitkan dengan sistem online yang menghasilkan pendapatan, dampak negatifnya jauh melampaui itu. Semua bisnis dan organisasi besar, terlepas dari model pendapatan utama mereka, sangat bergantung pada ketersediaan sistem internal mereka, seperti SDM dan penggajian.

Downtime yang mempengaruhi layanan internal inti ini dapat menghambat kemampuan perusahaan untuk berfungsi, yang menyebabkan gangguan operasional yang substansif dan dampak keuangan. Masalah yang dihasilkan dapat mencakup yang berikut:

  • Keterlambatan dalam membayar karyawan dan vendor

  • Ketidakmampuan untuk memproses pesanan atau transaksi pelanggan

  • Pelanggaran data sensitif yang diizinkan oleh sistem keamanan yang dikompromikan

  • Kehilangan produktivitas dan peluang pendapatan

  • Hukuman peraturan untuk ketidakpatuhan

  • Kerusakan reputasi merek

Rekayasa kekacauan sengaja memperkenalkan gangguan yang dikendalikan. Menggunakan rekayasa kekacauan untuk memahami atau memverifikasi respons sistem terhadap gangguan telah menjadi praktik penting untuk meningkatkan ketahanan sistem. Chaos engineering memungkinkan organisasi Anda untuk secara proaktif mengungkap masalah, memvalidasi mekanisme ketahanan, dan pada akhirnya mengurangi risiko downtime yang tidak direncanakan dan biaya terkait. Manfaat rekayasa kekacauan meliputi:

  • Mengekspos utang teknis

  • Melatih otot operasional

  • Membangun kepercayaan dalam sistem

  • Mengidentifikasi titik kegagalan

  • Meningkatkan pemantauan dan observabilitas

  • Mendukung pembelajaran berbasis eksperimen

  • Memberikan ketahanan yang lebih baik untuk mengurangi waktu henti

Ketika sistem menjadi lebih kompleks dan harapan pelanggan meningkat, rekayasa kekacauan semakin penting. Gartner merekomendasikan chaos engineering sebagai praktik penting bagi organisasi untuk mengurangi downtime yang tidak direncanakan dan meningkatkan ketahanan.

Tantangan adopsi rekayasa kekacauan

Meskipun rekayasa kekacauan merupakan praktik yang semakin penting untuk meningkatkan ketahanan sistem, pengadopsiannya dapat menghadapi hambatan berikut:

  • Kesalahpahaman tentang risiko — Kesalahpahaman umum adalah bahwa rekayasa kekacauan hanya dilakukan di lingkungan produksi, yang mengarah pada kekhawatiran tentang risiko yang berlebihan. Persepsi ini berasal dari kurangnya pemahaman tentang sifat sistematis dan terkontrol dari praktik rekayasa kekacauan. Sebagaimana dicatat dalam AWS Well-Architected Framework, lakukan simulasi kesalahan terlebih dahulu di lingkungan non-produksi.

  • Jangka panjang untuk nilai bisnis - Manfaat rekayasa kekacauan bertambah secara bertahap, sehingga sulit untuk mengukur nilai bisnis dan membenarkan investasi awal. ROI yang lebih lambat membuat sulit bagi organisasi untuk memprioritaskan dan tetap dengan rekayasa kekacauan.

  • Kesenjangan keterampilan dan keahlian — Rekayasa kekacauan membutuhkan seperangkat keterampilan dan keahlian unik yang mungkin tidak tersedia dalam organisasi Anda. Membangun atau memperoleh keahlian ini dapat menjadi penghalang yang signifikan, terutama bagi organisasi yang baru dalam praktik dan mereka yang memiliki sumber daya terbatas.

Sisa dari dokumen strategi ini akan fokus sebagian besar pada tantangan kedua, yaitu untuk menunjukkan nilai bisnis dari rekayasa kekacauan.

Efek akumulasi dari rekayasa kekacauan

Tidak seperti proyek teknologi tradisional dengan tanggal mulai dan berakhir yang terdefinisi dengan baik, rekayasa kekacauan adalah praktik pembelajaran berkelanjutan dan peningkatan berkelanjutan terhadap ketahanan sistem. Manfaat senyawa rekayasa kekacauan dari waktu ke waktu.

Ketika sistem berkembang dan tumbuh lebih kompleks, mode kegagalan baru muncul. Lebih banyak eksperimen chaos diperlukan untuk mengidentifikasi potensi masalah. Memperbaiki masalah dapat memakan waktu berbulan-bulan, terutama di perusahaan besar dengan sistem dan proses yang rumit, atau ketika kesalahan dimiliki oleh penyedia layanan eksternal.

Pergeseran budaya ke arah merangkul kegagalan sebagai kesempatan untuk belajar dan perbaikan tumbuh selama bertahun-tahun dan menjadi mendarah daging dalam organisasi. Investasi dalam mengotomatiskan eksperimen rekayasa kekacauan dan mengembangkan perkakas pendukung terus merampingkan dan meningkatkan praktik rekayasa kekacauan. Membangun pengetahuan kelembagaan dan pemahaman tentang ketahanan sistem ini adalah proses bertahap yang terakumulasi dari waktu ke waktu. Pengetahuan, proses, dan alat yang dikembangkan melalui rekayasa kekacauan meningkat nilainya saat praktik matang di samping sistem yang terus berkembang.

Diagram berikut menunjukkan bagaimana nilai meningkat dari waktu ke waktu saat adopsi kekacauan berlangsung melalui tahapan berikut:

  • Adopsi awal

  • Belajar

  • Analisis mode kegagalan

  • Eksperimen satu kali

  • Berkala GameDays

  • Eksperimen berkelanjutan

Nilai meningkat secara bertahap pada awalnya dan meningkat lebih cepat setelah eksperimen satu kali.

Seperti yang ditunjukkan dalam diagram, manfaat rekayasa kekacauan sering dimulai sebelum kesalahan apa pun disuntikkan ke dalam sistem. Proses perencanaan dan perancangan eksperimen chaos itu sendiri memberikan nilai langsung. Mengidentifikasi skenario kegagalan potensial, titik kegagalan tunggal, dan area ketidakpastian dalam sistem mengarah pada perbaikan.

Misalnya, menuliskan skenario kegagalan dan mendiskusikan potensi efek cascading, sebuah proses yang disebut mode kegagalan dan analisis efek (FMEA), membantu mengungkap kelemahan atau kesenjangan yang jelas yang mungkin telah diabaikan. Organisasi Anda dapat secara proaktif mengatasi masalah tersebut, bahkan sebelum membuat sistem mengalami gangguan yang disengaja. Untuk informasi lebih lanjut, lihat kerangka analisis Ketahanan.

Selain itu, peningkatan fokus pada observabilitas dan pemantauan sistem yang sering menyertai inisiatif rekayasa kekacauan mulai memberikan manfaat segera. Meningkatkan visibilitas ke dalam perilaku sistem dan mode kegagalan membantu tim lebih memahami kondisi operasi normal sistem. Visibilitas yang lebih besar juga membantu tim memahami bagaimana kondisi operasi menurun, beradaptasi, dan gagal ketika didorong ke batasnya.

Baik percobaan satu kali maupun GameDay mode periodik lebih merupakan pendekatan manual dibandingkan dengan mode eksperimen berkelanjutan. Mereka membutuhkan proses yang lebih langsung dan eksplorasi, di mana para insinyur secara aktif membentuk dan menyempurnakan hipotesis melalui pengamatan dan eksperimen mereka.

Mode eksperimen berkelanjutan, di sisi lain, lebih otomatis. Mode ini berfokus pada menjalankan hipotesis yang disetujui dan divalidasi secara terkontrol dan berulang. Ini menggunakan otomatisasi dan integrasi dalam proses pengembangan melalui pipeline chaos khusus untuk membantu memastikan eksperimen yang konsisten dan berulang.