PERF05-BP05 Menggunakan otomatisasi untuk secara proaktif memulihkan masalah terkait kinerja - AWS Well-Architected Framework

PERF05-BP05 Menggunakan otomatisasi untuk secara proaktif memulihkan masalah terkait kinerja

Gunakan indikator kinerja utama (KPI), yang digabungkan dengan sistem pamantauan dan peringatan, untuk menangani masalah terkait kinerja secara proaktif.

Antipola umum:

  • Anda hanya membekali staf operasional dengan kemampuan untuk membuat perubahan operasional pada beban kerja.

  • Anda membiarkan semua alarm disaring ke tim operasi tanpa perbaikan proaktif.

Manfaat menerapkan praktik terbaik ini: Perbaikan tindakan alarm yang proaktif memungkinkan staf dukungan untuk berkonsentrasi pada item-item yang tidak dapat ditindaklanjuti secara otomatis. Ini membantu staf operasi menangani semua alarm tanpa kewalahan dan mereka hanya berkonsentrasi pada alarm yang kritis.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Rendah

Panduan implementasi

Gunakan alarm untuk memicu tindakan otomatis untuk memperbaiki masalah ketika memungkinkan. Teruskan alarm ke personel yang mampu merespons jika respons otomatis tidak memungkinkan. Misalnya, Anda mungkin memiliki sistem yang dapat memprediksi nilai dan alarm indikator kinerja utama (KPI) yang diharapkan ketika melanggar ambang batas tertentu, atau alat yang dapat menghentikan atau membatalkan deployment secara otomatis jika KPI berada di luar nilai yang diharapkan.

Implementasikan proses yang menyediakan visibilitas tentang kinerja saat beban kerja Anda berjalan. Bangun dasbor pemantauan dan buat norma acuan untuk harapan kinerja guna menentukan apakah beban kerja berkinerja secara optimal.

Langkah implementasi

  • Identifikasi dan pahami masalah kinerja yang dapat diperbaiki secara otomatis. Gunakan solusi pemantauan AWS seperti Amazon CloudWatch atau AWS X-Ray untuk membantu Anda lebih memahami akar penyebab masalah.

  • Buat rencana dan proses perbaikan langkah demi langkah yang dapat digunakan untuk memperbaiki masalah secara otomatis.

  • Konfigurasikan pemicu untuk memulai proses perbaikan secara otomatis. Misalnya, Anda dapat menentukan pemicu untuk memulai ulang instans secara otomatis ketika mencapai ambang batas pemanfaatan CPU tertentu.

  • Gunakan layanan dan teknologi AWS untuk mengotomatiskan proses perbaikan. Sebagai contoh, AWS Systems Manager Automation menyediakan cara yang aman dan dapat diskalakan untuk mengotomatiskan proses perbaikan.

  • Uji proses perbaikan otomatis di lingkungan praproduksi.

  • Setelah pengujian, implementasikan proses perbaikan di lingkungan produksi dan terus pantau untuk mengidentifikasi area untuk perbaikan.

Sumber daya

Dokumen terkait:

Video terkait:

Contoh terkait: