Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
6. Pemantauan berkelanjutan
Dalam pemantauan berkelanjutan, proses otomatis mengamati dan mendeteksi masalah kinerja dan masalah model. Pemilik kemudian dapat mengidentifikasi potensi masalah dan ancaman secara real time untuk mengatasinya dengan cepat.
Pemantauan berkelanjutan memunculkan kemungkinan masalah model seperti kualitas data, pergeseran distribusi, pergeseran konsep model, dan degradasi kualitas model. Pemantauan berkelanjutan juga mencakup pencatatan komprehensif untuk langkah-langkah sistem tradisional seperti saturasi, latensi, lalu lintas, dan kesalahan. Strategi pemberitahuan dan peringatan praktis disiapkan untuk memberi tahu pemilik saat masalah muncul.
6.1 Pemantauan model: deteksi kualitas data |
Pemantauan berbasis aturan dilakukan untuk mengetahui kapan data yang masuk menyimpang dari data pelatihan model. Jenis pemantauan ini membuat skema dari data pelatihan, menetapkan batasan berdasarkan skema itu, dan kemudian menjalankan pengecualian ketika pelanggaran terjadi. |
6.2 Pemantauan model: pergeseran distribusi |
Pemantauan diatur untuk melihat distribusi data yang masuk dan memeriksa apakah itu tidak menyimpang dari distribusi data pelatihan model. Misalnya, data yang masuk diambil sampelnya sebagai jendela bergerak |
6.3 Pemantauan model: konsep model drift |
Pemeriksaan drift konsep mencari hubungan antara input model dan variabel target agar tetap tidak berubah dari data pelatihan. Pemeriksaan tambahan adalah untuk mengonfirmasi bahwa fitur relatif dan kepentingannya tidak berubah. |
6.4 Pemantauan model: pemeriksaan evaluasi model |
Ini adalah pemeriksaan pemantauan yang mengevaluasi apakah kualitas model telah menurun. Pemeriksaan evaluasi model membandingkan metrik evaluasi dasar dari waktu pelatihan dengan hasil yang masuk untuk menilai apakah tingkat akurasi model telah menurun pada data baru. Karena menghitung metrik akurasi, pemeriksaan ini membutuhkan kebenaran dasar data baru untuk tersedia setelah inferensi. |
6.5 Tangkapan sistem: skema masukan |
Sistem ML menangkap skema data pelatihan, pengujian, dan validasi. Selain memberikan informasi tentang input, skema memberikan statistik mengenai kemiringan dan kelengkapannya. Skema digunakan untuk pengujian langsung dan pemeriksaan pemantauan kualitas data dalam produksi. |
6.6 Penangkapan sistem: hasil evaluasi dan statistik |
Sistem ML menghasilkan informasi akurasi tentang validasi dan data pelatihan. Ini dapat menampilkan prediksi dan label sejati dari validasi dan pelatihan berjalan. Ini digunakan sebagai kendala pemantauan untuk model produksi langsung. |
6.7 Tangkapan sistem: anomali |
Ada mekanisme pelacakan untuk menandai anomali dalam aliran data yang masuk. Jika outlier terjadi dalam data yang masuk atau jika selama jangka waktu tertentu distribusi fitur utama berubah, sistem mengenali ini sebagai anomali dan menandainya. |
6.8 Logging: saturasi dan sumber daya |
Ada login di tempat untuk seberapa penuh sistem ini. Metrik sumber daya dan saturasi harus fokus pada pemanfaatan CPU, pemanfaatan unit pemrosesan grafis (GPU), pemanfaatan memori, dan pemanfaatan disk. Metrik ini harus tersedia dalam format deret waktu dengan kemampuan untuk mengukur dalam persentil. Untuk pekerjaan batch, ini memberikan informasi tentang throughput, yang menunjukkan berapa banyak unit informasi yang dapat diproses sistem dalam setiap jumlah waktu. |
6.9 Pencatatan: latensi |
Logging harus dilakukan untuk mengukur keterlambatan komunikasi jaringan atau waktu yang diperlukan untuk melayani permintaan. Seorang insinyur harus dapat menilai berapa lama model inferensi yang dibutuhkan untuk melayani prediksi dan berapa lama model dimuat. |
6.10 Pencatatan: lalu lintas |
Pengaturan logging untuk lalu lintas mengukur volume lalu lintas pada setiap instance. Lalu lintas diukur dengan jumlah permintaan HTTP dan byte atau paket yang dikirim atau diterima selama jangka waktu tertentu. Lalu lintas logging memberikan wawasan tentang total beban kerja yang ditempatkan pada suatu sistem. |
6.11 Pencatatan: kesalahan |
Pengaturan logging untuk kesalahan menangkap jumlah permintaan yang gagal. Kegagalan adalah dari jenis berikut:
Di mana kode respons protokol tidak cukup untuk mengekspresikan semua kondisi kegagalan, protokol sekunder (internal) mungkin diperlukan untuk melacak mode kegagalan sebagian. |
6.12 Pemberitahuan dan peringatan |
Pemberitahuan dan peringatan diatur dari pemantauan. Pemberitahuan mencakup kemampuan untuk mendapatkan Slack, pemberitahuan email, halaman, dan pesan Layanan Pesan Singkat (SMS). Peringatan tidak berarti mengirim pemberitahuan untuk semua kemungkinan pelanggaran. Sebaliknya, ini berarti mengatur peringatan ke pengecualian tertentu yang bermakna dan penting bagi tim pengembangan. Dengan cara ini, kelelahan waspada dihindari. |