6. Monitoraggio continuo - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

6. Monitoraggio continuo

Nel monitoraggio continuo, i processi automatizzati osservano e rilevano problemi di prestazioni e problemi di modello. I proprietari possono quindi identificare potenziali problemi e minacce in tempo reale per risolverli rapidamente.

Il monitoraggio continuo evidenzia possibili problemi del modello, come la qualità dei dati, il cambiamento della distribuzione, il cambiamento del concetto del modello e il degrado della qualità del modello. Il monitoraggio continuo include anche la registrazione completa delle misure di sistema tradizionali come saturazione, latenza, traffico ed errori. Viene impostata una pratica strategia di notifica e avviso per avvisare i proprietari in caso di problemi.

6.1 Monitoraggio del modello: rilevamento della qualità dei dati

Il monitoraggio basato su regole consente di sapere quando i dati in entrata si discostano dai dati di addestramento del modello. Questo tipo di monitoraggio crea uno schema a partire dai dati di addestramento, imposta i vincoli in base a tale schema e quindi esegue eccezioni in caso di violazione.

6.2 Monitoraggio del modello: spostamento della distribuzione

Il monitoraggio è impostato per esaminare la distribuzione dei dati in entrata e verificare che non si sia discostata dalla distribuzione dei dati di addestramento del modello. Ad esempio, i dati in entrata vengono campionati come una finestra mobile sui dati di inferenza. Viene quindi eseguito un processo per testare la distribuzione campionata e la distribuzione della formazione per verificare se sono uguali.

6.3 Monitoraggio del modello: deriva del concetto di modello

Un controllo della deriva concettuale verifica che la relazione tra gli input di un modello e la variabile target rimanga invariata rispetto ai dati di addestramento. Un ulteriore controllo serve a confermare che le caratteristiche relative e la loro importanza non cambino.

6.4 Monitoraggio del modello: controllo della valutazione del modello

Si tratta di un controllo di monitoraggio che valuta se la qualità del modello è peggiorata. Il controllo di valutazione del modello confronta le metriche di valutazione di base relative al periodo di formazione con i risultati in arrivo per valutare se il livello di precisione del modello è diminuito rispetto ai nuovi dati. Poiché calcola metriche di precisione, questo controllo richiede che la veridicità di base dei nuovi dati sia disponibile dopo l'inferenza.

6.5 Acquisizioni di sistema: schemi di input

Il sistema ML acquisisce lo schema dei dati di addestramento, test e convalida. Oltre a fornire informazioni sugli input, gli schemi forniscono statistiche sulla loro inclinazione e completezza.  Gli schemi vengono utilizzati per test immediati e controlli di monitoraggio della qualità dei dati in produzione.

6.6 Acquisizioni di sistema: risultati di valutazione e statistiche

Il sistema ML fornisce informazioni di precisione sui dati di convalida e formazione. È in grado di produrre previsioni ed etichette veritiere derivanti da sessioni di convalida e formazione. Questi vengono utilizzati come vincoli di monitoraggio per il modello di produzione live.

6.7 Acquisizioni di sistema: anomalie

Esiste un meccanismo di tracciamento per segnalare le anomalie nei flussi di dati in entrata. Se si verificano valori anomali nei dati in ingresso o se durante un periodo di tempo specificato la distribuzione delle funzionalità chiave cambia, il sistema riconosce che si tratta di un'anomalia e la segnala.

6.8 Registrazione: saturazione e risorse

È in atto la registrazione del livello di riempimento del sistema. Le metriche relative alle risorse e alla saturazione devono concentrarsi sull'utilizzo della CPU, sull'utilizzo delle unità di elaborazione grafica (GPU), sull'utilizzo della memoria e sull'utilizzo del disco. Queste metriche dovrebbero essere disponibili in formato di serie temporali con la possibilità di misurarle in percentili. Per i processi in batch, questo fornisce informazioni sulla velocità effettiva, che mostra quante unità di informazioni il sistema può elaborare in ogni periodo di tempo.

6.9 Registrazione: latenza

La registrazione deve essere utilizzata per misurare il ritardo nella comunicazione di rete o il tempo necessario per soddisfare una richiesta. Un tecnico dovrebbe essere in grado di valutare quanto tempo impiegano i modelli di inferenza a fornire le previsioni e quanto tempo impiega il modello a caricarsi.

6.10 Registrazione: traffico

La configurazione di registrazione per il traffico misura il volume di traffico su ciascuna istanza. Il traffico viene misurato in base al numero di richieste HTTP e di byte o pacchetti inviati o ricevuti in un determinato periodo di tempo. La registrazione del traffico fornisce informazioni sul carico di lavoro totale assegnato a un sistema.

6.11 Registrazione: errori

La configurazione di registrazione degli errori registra il numero di richieste non riuscite. Gli errori sono dei seguenti tipi:

  • Espliciti (ad esempio, errori HTTP 500)

  • Implicito (ad esempio, una risposta di successo HTTP 200 associata a un contenuto errato)

  • Criteri (ad esempio, se ti impegni a rispettare tempi di risposta di un secondo, qualsiasi richiesta superiore a un secondo è un errore)

Laddove i codici di risposta del protocollo non sono sufficienti a esprimere tutte le condizioni di errore, potrebbero essere necessari protocolli secondari (interni) per tenere traccia delle modalità di errore parziale.

6.12 Notifiche e avvisi

Le notifiche e gli avvisi vengono impostati dal monitoraggio. Le notifiche includono la possibilità di ricevere Slack, notifiche via email, pagine e messaggi SMS (Short Message Service). Avvisare non significa inviare notifiche per tutte le possibili violazioni. Significa invece impostare avvisi su eccezioni specifiche che sono significative e importanti per il team di sviluppo. In questo modo si evita l'affaticamento da allerta.