6. Pemantauan berkelanjutan - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

6. Pemantauan berkelanjutan

Dalam pemantauan berkelanjutan, proses otomatis mengamati dan mendeteksi masalah kinerja dan masalah model. Pemilik kemudian dapat mengidentifikasi potensi masalah dan ancaman secara real time untuk mengatasinya dengan cepat.

Pemantauan berkelanjutan memunculkan kemungkinan masalah model seperti kualitas data, pergeseran distribusi, pergeseran konsep model, dan degradasi kualitas model. Pemantauan berkelanjutan juga mencakup pencatatan komprehensif untuk langkah-langkah sistem tradisional seperti saturasi, latensi, lalu lintas, dan kesalahan. Strategi pemberitahuan dan peringatan praktis disiapkan untuk memberi tahu pemilik saat masalah muncul.

6.1 Pemantauan model: deteksi kualitas data

Pemantauan berbasis aturan dilakukan untuk mengetahui kapan data yang masuk menyimpang dari data pelatihan model. Jenis pemantauan ini membuat skema dari data pelatihan, menetapkan batasan berdasarkan skema itu, dan kemudian menjalankan pengecualian ketika pelanggaran terjadi.

6.2 Pemantauan model: pergeseran distribusi

Pemantauan diatur untuk melihat distribusi data yang masuk dan memeriksa apakah itu tidak menyimpang dari distribusi data pelatihan model. Misalnya, data yang masuk diambil sampelnya sebagai jendela bergerak di atas data inferensi. Sebuah pekerjaan kemudian dijalankan untuk menguji distribusi sampel dan distribusi pelatihan untuk melihat apakah mereka sama.

6.3 Pemantauan model: konsep model drift

Pemeriksaan drift konsep mencari hubungan antara input model dan variabel target agar tetap tidak berubah dari data pelatihan. Pemeriksaan tambahan adalah untuk mengonfirmasi bahwa fitur relatif dan kepentingannya tidak berubah.

6.4 Pemantauan model: pemeriksaan evaluasi model

Ini adalah pemeriksaan pemantauan yang mengevaluasi apakah kualitas model telah menurun. Pemeriksaan evaluasi model membandingkan metrik evaluasi dasar dari waktu pelatihan dengan hasil yang masuk untuk menilai apakah tingkat akurasi model telah menurun pada data baru. Karena menghitung metrik akurasi, pemeriksaan ini membutuhkan kebenaran dasar data baru untuk tersedia setelah inferensi.

6.5 Tangkapan sistem: skema masukan

Sistem ML menangkap skema data pelatihan, pengujian, dan validasi. Selain memberikan informasi tentang input, skema memberikan statistik mengenai kemiringan dan kelengkapannya.  Skema digunakan untuk pengujian langsung dan pemeriksaan pemantauan kualitas data dalam produksi.

6.6 Penangkapan sistem: hasil evaluasi dan statistik

Sistem ML menghasilkan informasi akurasi tentang validasi dan data pelatihan. Ini dapat menampilkan prediksi dan label sejati dari validasi dan pelatihan berjalan. Ini digunakan sebagai kendala pemantauan untuk model produksi langsung.

6.7 Tangkapan sistem: anomali

Ada mekanisme pelacakan untuk menandai anomali dalam aliran data yang masuk. Jika outlier terjadi dalam data yang masuk atau jika selama jangka waktu tertentu distribusi fitur utama berubah, sistem mengenali ini sebagai anomali dan menandainya.

6.8 Logging: saturasi dan sumber daya

Ada login di tempat untuk seberapa penuh sistem ini. Metrik sumber daya dan saturasi harus fokus pada pemanfaatan CPU, pemanfaatan unit pemrosesan grafis (GPU), pemanfaatan memori, dan pemanfaatan disk. Metrik ini harus tersedia dalam format deret waktu dengan kemampuan untuk mengukur dalam persentil. Untuk pekerjaan batch, ini memberikan informasi tentang throughput, yang menunjukkan berapa banyak unit informasi yang dapat diproses sistem dalam setiap jumlah waktu.

6.9 Pencatatan: latensi

Logging harus dilakukan untuk mengukur keterlambatan komunikasi jaringan atau waktu yang diperlukan untuk melayani permintaan. Seorang insinyur harus dapat menilai berapa lama model inferensi yang dibutuhkan untuk melayani prediksi dan berapa lama model dimuat.

6.10 Pencatatan: lalu lintas

Pengaturan logging untuk lalu lintas mengukur volume lalu lintas pada setiap instance. Lalu lintas diukur dengan jumlah permintaan HTTP dan byte atau paket yang dikirim atau diterima selama jangka waktu tertentu. Lalu lintas logging memberikan wawasan tentang total beban kerja yang ditempatkan pada suatu sistem.

6.11 Pencatatan: kesalahan

Pengaturan logging untuk kesalahan menangkap jumlah permintaan yang gagal. Kegagalan adalah dari jenis berikut:

  • Eksplisit (misalnya, kesalahan HTTP 500)

  • Implisit (misalnya, respons sukses HTTP 200 yang digabungkan dengan konten yang salah)

  • Kebijakan (misalnya, jika Anda berkomitmen pada waktu respons satu detik, permintaan apa pun selama satu detik adalah kesalahan)

Di mana kode respons protokol tidak cukup untuk mengekspresikan semua kondisi kegagalan, protokol sekunder (internal) mungkin diperlukan untuk melacak mode kegagalan sebagian.

6.12 Pemberitahuan dan peringatan

Pemberitahuan dan peringatan diatur dari pemantauan. Pemberitahuan mencakup kemampuan untuk mendapatkan Slack, pemberitahuan email, halaman, dan pesan Layanan Pesan Singkat (SMS). Peringatan tidak berarti mengirim pemberitahuan untuk semua kemungkinan pelanggaran. Sebaliknya, ini berarti mengatur peringatan ke pengecualian tertentu yang bermakna dan penting bagi tim pengembangan. Dengan cara ini, kelelahan waspada dihindari.