Jalankan
Keberhasilan operasi beban kerja diukur dengan pencapaian hasil bisnis dan pelanggan. Tetapkan hasil yang diharapkan, tentukan bagaimana keberhasilan akan diukur, dan identifikasi metrik yang akan digunakan pada perhitungan tersebut untuk menentukan apakah beban kerja dan operasi Anda berhasil. Kesehatan operasional meliputi kesehatan beban kerja dan kesehatan serta keberhasilan aktivitas operasi yang dilakukan dalam dukungan beban kerja (misalnya, deployment dan respons insiden). Tetapkan baris acuan metrik untuk peningkatan, investigasi, serta intervensi, kumpulkan dan analisis metrik Anda, kemudian validasi pemahaman Anda tentang keberhasilan operasi dan bagaimana hal tersebut berubah seiring waktu. Gunakan metrik yang dikumpulkan untuk menentukan apakah Anda memenuhi kebutuhan pelanggan dan bisnis, serta identifikasi area peningkatan.
Manajemen peristiwa operasional yang efektif dan efisien diperlukan untuk mencapai keunggulan operasional. Hal ini berlaku untuk peristiwa operasional baik yang terencana maupun tidak terencana. Gunakan runbook yang telah dibuat untuk peristiwa yang dipahami dengan baik, dan gunakan buku panduan untuk membantu investigasi dan resolusi masalah. Prioritaskan respons pada peristiwa berdasarkan dampak bisnis dan pelanggan mereka. Jika ada peringatan sebagai respons sebuah peristiwa, pastikan ada proses yang terkait untuk dijalankan, dengan pemilik yang teridentifikasi secara spesifik. Tentukan terlebih dahulu personel yang diperlukan untuk mengatasi peristiwa dan mencakup pemicu eskalasi untuk melibatkan personel tambahan, ketika ini diperlukan, berdasarkan urgensi dan dampak. Identifikasi dan libatkan individu dengan otoritas untuk membuat keputusan dalam kursus tindakan di mana akan ada dampak bisnis dari respons peristiwa yang tidak diatasi sebelumnya.
Komunikasikan status operasional beban kerja melalui dasbor dan pemberitahuan yang disesuaikan dengan audiens target (misalnya, pelanggan, bisnis, pengembang, operasi) sehingga mereka bisa mengambil tindakan yang sesuai, ekspektasi mereka terkelola, serta mereka mendapatkan informasi ketika operasi kembali normal.
Di AWS, Anda dapat membuat tampilan dasbor metrik Anda yang dikumpulkan dari beban kerja dan secara native dari AWS. Anda dapat memanfaatkan CloudWatch atau aplikasi pihak ketiga untuk melakukan agregrasi dan mempresentasikan bisnis, beban kerja, dan tampilan aktivitas operasi pada tingkat operasi. AWS menyediakan wawasan beban kerja melalui kemampuan yang mencakup AWS X-Ray, CloudWatch, CloudTrail, dan Log Alur VPC yang memungkinkan identifikasi masalah beban kerja untuk mendukung analisis akar masalah dan perbaikan.
Pertanyaan berikut ini berfokus pada semua pertimbangan untuk keunggulan operasional.
OPS 8: Bagaimana cara memahami kondisi beban kerja Anda? |
---|
Tetapkan, rekam, dan analisis metrik beban kerja untuk mendapatkan visibilitas peristiwa beban kerja sehingga Anda dapat mengambil tindakan yang tepat. |
OPS 9: Bagaimana cara memahami kondisi operasi Anda? |
---|
Tetapkan, rekam, dan analisis metrik operasi untuk mendapatkan visibilitas peristiwa operasi sehingga Anda dapat mengambil tindakan yang tepat. |
OPS 10: Bagaimana cara mengelola peristiwa operasi dan beban kerja? |
---|
Siapkan dan validasi prosedur untuk merespons peristiwa guna meminimalkan gangguannya pada beban kerja Anda. |
Semua metrik yang Anda kumpulkan harus selaras dengan kebutuhan bisnis dan hasil yang didukung. Kembangkan respons dalam skrip untuk memahami peristiwa dengan baik dan otomatiskan respons tersebut saat ada peristiwa yang dikenali.