OPS10-BP07 Otomatiskan respons terhadap peristiwa
Mengotomatiskan respons peristiwa sangatlah penting untuk penanganan operasional yang cepat, konsisten, dan bebas kesalahan. Ciptakan proses yang efisien dan gunakan alat untuk mengelola dan merespons peristiwa secara otomatis, sehingga meminimalkan intervensi manual dan meningkatkan efektivitas operasional.
Hasil yang diinginkan:
-
Lebih sedikit kesalahan manusia dan waktu resolusi yang lebih cepat melalui otomatisasi.
-
Penanganan peristiwa operasional yang konsisten dan andal.
-
Peningkatan efisiensi operasional dan keandalan sistem.
Antipola umum:
-
Penanganan peristiwa manual menyebabkan penundaan dan kesalahan.
-
Otomatisasi diabaikan dalam tugas-tugas penting yang repetitif.
-
Tugas manual yang repetitif menyebabkan kejemuan akibat peringatan dan terlewatkannya masalah-masalah kritis.
Manfaat menjalankan praktik terbaik ini:
-
Respons peristiwa yang lebih cepat, sehingga mengurangi waktu henti sistem.
-
Operasi yang andal dengan penanganan peristiwa yang otomatis dan konsisten.
Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Sedang
Panduan implementasi
Integrasikan otomatisasi untuk menciptakan alur kerja operasional yang efisien dan meminimalkan intervensi manual.
Langkah implementasi
-
Identifikasi peluang otomatisasi: Tentukan tugas-tugas repetitif untuk diotomatisasi, seperti remediasi masalah, pengayaan tiket, manajemen kapasitas, penskalaan, deployment, dan pengujian.
-
Identifikasi perintah-perintah otomatisasi:
-
Nilai dan tentukan kondisi atau metrik tertentu yang memulai respons otomatis menggunakan tindakan alarm Amazon CloudWatch.
-
Gunakan Amazon EventBridge
untuk merespons peristiwa di layanan AWS, beban kerja kustom, dan aplikasi SaaS. -
Pertimbangkan peristiwa inisiasi seperti entri log tertentu, ambang metrik kinerja, atau perubahan status di dalam sumber daya AWS.
-
-
Implementasikan otomatisasi yang didorong peristiwa:
-
Gunakan runbook AWS Systems Manager Automation untuk menyederhanakan tugas-tugas pemeliharaan, deployment, dan remediasi.
-
Pembuatan insiden di Incident Manager secara otomatis mengumpulkan dan menambahkan detail tentang sumber daya AWS yang terlibat ke insiden tersebut.
-
Pantau kuota secara proaktif menggunakan Pemantau Kuota untuk AWS
. -
Sesuaikan kapasitas secara otomatis dengan AWS Auto Scaling
untuk menjaga ketersediaan dan performa. -
Otomatiskan alur pengembangan dengan Amazon CodeCatalyst
. -
Lakukan tes asap atau pantau secara terus-memantau titik akhir dan API menggunakan pemantauan sintetis.
-
-
Lakukan mitigasi risiko melalui otomatisasi:
-
Implementasikan respons keamanan otomatis
untuk mengatasi risiko dengan cepat. -
Gunakan AWS Systems Manager State Manager untuk mengurangi penyimpangan konfigurasi.
-
Perbaiki sumber daya yang tidak patuh dengan Aturan AWS Config.
-
Tingkat upaya untuk rencana implementasi: Tinggi
Sumber daya
Praktik terbaik terkait:
Dokumen terkait:
Video terkait:
Contoh terkait: