6. Pemantauan berkelanjutan

Dalam pemantauan berkelanjutan, proses otomatis mengamati dan mendeteksi masalah kinerja dan masalah model. Pemilik kemudian dapat mengidentifikasi potensi masalah dan ancaman secara real time untuk mengatasinya dengan cepat.

Pemantauan berkelanjutan memunculkan kemungkinan masalah model seperti kualitas data, pergeseran distribusi, pergeseran konsep model, dan degradasi kualitas model. Pemantauan berkelanjutan juga mencakup pencatatan komprehensif untuk langkah-langkah sistem tradisional seperti saturasi, latensi, lalu lintas, dan kesalahan. Strategi pemberitahuan dan peringatan praktis disiapkan untuk memberi tahu pemilik saat masalah muncul.

6.1 Pemantauan model: deteksi kualitas data	Pemantauan berbasis aturan dilakukan untuk mengetahui kapan data yang masuk menyimpang dari data pelatihan model. Jenis pemantauan ini membuat skema dari data pelatihan, menetapkan batasan berdasarkan skema itu, dan kemudian menjalankan pengecualian ketika pelanggaran terjadi.
6.2 Pemantauan model: pergeseran distribusi	Pemantauan diatur untuk melihat distribusi data yang masuk dan memeriksa apakah itu tidak menyimpang dari distribusi data pelatihan model. Misalnya, data yang masuk diambil sampelnya sebagai jendela bergerak di atas data inferensi. Sebuah pekerjaan kemudian dijalankan untuk menguji distribusi sampel dan distribusi pelatihan untuk melihat apakah mereka sama.
6.3 Pemantauan model: konsep model drift	Pemeriksaan drift konsep mencari hubungan antara input model dan variabel target agar tetap tidak berubah dari data pelatihan. Pemeriksaan tambahan adalah untuk mengonfirmasi bahwa fitur relatif dan kepentingannya tidak berubah.
6.4 Pemantauan model: pemeriksaan evaluasi model	Ini adalah pemeriksaan pemantauan yang mengevaluasi apakah kualitas model telah menurun. Pemeriksaan evaluasi model membandingkan metrik evaluasi dasar dari waktu pelatihan dengan hasil yang masuk untuk menilai apakah tingkat akurasi model telah menurun pada data baru. Karena menghitung metrik akurasi, pemeriksaan ini membutuhkan kebenaran dasar data baru untuk tersedia setelah inferensi.
6.5 Tangkapan sistem: skema masukan	Sistem ML menangkap skema data pelatihan, pengujian, dan validasi. Selain memberikan informasi tentang input, skema memberikan statistik mengenai kemiringan dan kelengkapannya. Skema digunakan untuk pengujian langsung dan pemeriksaan pemantauan kualitas data dalam produksi.
6.6 Penangkapan sistem: hasil evaluasi dan statistik	Sistem ML menghasilkan informasi akurasi tentang validasi dan data pelatihan. Ini dapat menampilkan prediksi dan label sejati dari validasi dan pelatihan berjalan. Ini digunakan sebagai kendala pemantauan untuk model produksi langsung.
6.7 Tangkapan sistem: anomali	Ada mekanisme pelacakan untuk menandai anomali dalam aliran data yang masuk. Jika outlier terjadi dalam data yang masuk atau jika selama jangka waktu tertentu distribusi fitur utama berubah, sistem mengenali ini sebagai anomali dan menandainya.
6.8 Logging: saturasi dan sumber daya	Ada login di tempat untuk seberapa penuh sistem ini. Metrik sumber daya dan saturasi harus fokus pada pemanfaatan CPU, pemanfaatan unit pemrosesan grafis (GPU), pemanfaatan memori, dan pemanfaatan disk. Metrik ini harus tersedia dalam format deret waktu dengan kemampuan untuk mengukur dalam persentil. Untuk pekerjaan batch, ini memberikan informasi tentang throughput, yang menunjukkan berapa banyak unit informasi yang dapat diproses sistem dalam setiap jumlah waktu.
6.9 Pencatatan: latensi	Logging harus dilakukan untuk mengukur keterlambatan komunikasi jaringan atau waktu yang diperlukan untuk melayani permintaan. Seorang insinyur harus dapat menilai berapa lama model inferensi yang dibutuhkan untuk melayani prediksi dan berapa lama model dimuat.
6.10 Pencatatan: lalu lintas	Pengaturan logging untuk lalu lintas mengukur volume lalu lintas pada setiap instance. Lalu lintas diukur dengan jumlah permintaan HTTP dan byte atau paket yang dikirim atau diterima selama jangka waktu tertentu. Lalu lintas logging memberikan wawasan tentang total beban kerja yang ditempatkan pada suatu sistem.
6.11 Pencatatan: kesalahan	Pengaturan logging untuk kesalahan menangkap jumlah permintaan yang gagal. Kegagalan adalah dari jenis berikut: Eksplisit (misalnya, kesalahan HTTP 500) Implisit (misalnya, respons sukses HTTP 200 yang digabungkan dengan konten yang salah) Kebijakan (misalnya, jika Anda berkomitmen pada waktu respons satu detik, permintaan apa pun selama satu detik adalah kesalahan) Di mana kode respons protokol tidak cukup untuk mengekspresikan semua kondisi kegagalan, protokol sekunder (internal) mungkin diperlukan untuk melacak mode kegagalan sebagian.
6.12 Pemberitahuan dan peringatan	Pemberitahuan dan peringatan diatur dari pemantauan. Pemberitahuan mencakup kemampuan untuk mendapatkan Slack, pemberitahuan email, halaman, dan pesan Layanan Pesan Singkat (SMS). Peringatan tidak berarti mengirim pemberitahuan untuk semua kemungkinan pelanggaran. Sebaliknya, ini berarti mengatur peringatan ke pengecualian tertentu yang bermakna dan penting bagi tim pengembangan. Dengan cara ini, kelelahan waspada dihindari.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

5. Integrasi berkelanjutan

7. Deployment kontinu