6. Pemantauan terus menerus - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

6. Pemantauan terus menerus

Dalam pemantauan berkelanjutan, proses otomatis mengamati dan mendeteksi masalah kinerja dan masalah model. Pemilik kemudian dapat mengidentifikasi potensi masalah dan ancaman secara real time untuk mengatasinya dengan cepat.

Pemantauan berkelanjutan menampilkan kemungkinan masalah model seperti kualitas data, pergeseran distribusi, pergeseran konsep model, dan degradasi kualitas model. Pemantauan berkelanjutan juga mencakup penebangan komprehensif untuk langkah-langkah sistem tradisional seperti saturasi, latensi, lalu lintas, dan kesalahan. Pemberitahuan praktis dan strategi peringatan disiapkan untuk memberi tahu pemilik ketika masalah muncul.

6.1 Pemantauan model: deteksi kualitas data

Pemantauan berbasis aturan tersedia untuk mengetahui kapan data yang masuk menyimpang dari data pelatihan model. Jenis pemantauan ini membuat skema dari data pelatihan, menetapkan batasan berdasarkan skema tersebut, dan kemudian menjalankan pengecualian saat terjadi pelanggaran.

6.2 Pemantauan model: pergeseran distribusi

Pemantauan diatur untuk melihat distribusi data yang masuk dan memeriksa apakah tidak menyimpang dari distribusi data pelatihan model. Misalnya, data yang masuk diambil sampelnyasebagai jendela yang bergerakatas data inferensi. Sebuah pekerjaan kemudian dijalankan untuk menguji distribusi sampel dan distribusi pelatihan untuk melihat apakah mereka sama.

6.3 Pemantauan model: konsep model drift

Pemeriksaan drift konsep mencari hubungan antara input model dan variabel target agar tetap tidak berubah dari data pelatihan. Pemeriksaan tambahan adalah mengonfirmasi bahwa fitur relatif dan kepentingannya tidak berubah.

6.4 Pemantauan model: pemeriksaan evaluasi model

Ini adalah pemeriksaan pemantauan yang mengevaluasi apakah kualitas model telah menurun. Pemeriksaan evaluasi model membandingkan metrik evaluasi dasar dari waktu pelatihan dengan hasil yang masuk untuk menilai apakah tingkat akurasi model telah menurun pada data baru. Karena menghitung metrik akurasi, pemeriksaan ini memerlukan kebenaran dasar data baru untuk tersedia setelah kesimpulan.

6.5 Sistem menangkap: skema masukan

Sistem MLmenangkap skema pelatihan, pengujian, dan data validasi. Selain memberikan informasi tentang masukan, skema memberikan statistik mengenai kemiringan dan kelengkapannya.  Skema digunakan untuk pengujian langsung dan pemeriksaan pemantauan kualitas data dalam produksi.

6.6 Sistem menangkap: hasil evaluasi dan statistik

Sistem MS mengeluarkan informasi akurasi pada validasi dan data pelatihan. Hal ini dapat output prediksi dan label benar dari validasi dan pelatihan berjalan. Ini digunakan sebagai kendala pemantauan untuk model produksi langsung.

6.7 Sistem menangkap: anomali

Ada mekanisme pelacakan di tempat untuk menandai anomali dalam aliran data yang masuk. Jika outlier terjadi pada data yang masuk atau jika selama jangka waktu tertentu distribusi fitur utama berubah, sistem mengenali ini sebagai anomali dan menandainya.

6.8 Logging: saturasi dan sumber daya

Ada penebangan di tempat untuk seberapa penuh sistem ini. Metrik sumber daya dan saturasi harus fokus pada pemanfaatan CPU, pemanfaatan unit pemrosesan grafis (GPU), pemanfaatan memori, dan pemanfaatan disk. Metrik ini harus tersedia dalam format deret waktu dengan kemampuan untuk mengukur dalam persentil. Untuk pekerjaan batch, ini memberikan informasi tentang throughput, yang menunjukkan berapa banyak unit informasi yang dapat diproses sistem dalam setiap jumlah waktu.

6.9 Logging: latensi

Logging harus dilakukan untuk mengukur keterlambatan komunikasi jaringan atau waktu yang dibutuhkan untuk melayani permintaan. Seorang insinyur harus dapat menilai berapa lama model inferensi yang dibutuhkan untuk melayani prediksi dan berapa lama model yang dibutuhkan untuk memuat.

6.10 Logging: lalu lintas

Pengaturan logging untuk lalu lintas mengukur volume lalu lintas pada setiap instans. Lalu lintas diukur dengan jumlah permintaan HTTP dan byte atau paket yang dikirim atau diterima selama jangka waktu tertentu. Lalu lintas logging memberikan wawasan tentang total beban kerja yang ditempatkan pada sistem.

6.11 Logging: kesalahan

Pengaturan logging untuk kesalahan menangkap jumlah permintaan yang gagal. Kegagalan adalah dari jenis berikut:

  • Eksplisit (misalnya, kesalahan HTTP 500)

  • Implisit (misalnya, respons sukses HTTP 200 yang digabungkan dengan konten yang salah)

  • Kebijakan (misalnya, jika Anda berkomitmen pada waktu respons satu detik, permintaan apa pun selama satu detik adalah kesalahan)

Jika kode respons protokol tidak cukup untuk mengekspresikan semua kondisi kegagalan, protokol sekunder (internal) mungkin diperlukan untuk melacak mode kegagalan sebagian.

6.12 Pemberitahuan dan peringatan

Pemberitahuan dan peringatan diatur dari pemantauan. Pemberitahuan mencakup kemampuan untuk mendapatkan Slack, pemberitahuan email, halaman, dan pesan Short Message Service (SMS). Peringatan tidak berarti mengirim pemberitahuan untuk semua kemungkinan pelanggaran. Sebaliknya, itu berarti menetapkan peringatan untuk pengecualian tertentu yang bermakna dan penting bagi tim pengembangan. Dengan cara ini, kelelahan waspada dihindari.