Monitoraggio della deviazione del bias per i modelli in produzione - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitoraggio della deviazione del bias per i modelli in produzione

Il monitoraggio dei pregiudizi di Amazon SageMaker Clarify aiuta i data scientist e gli ingegneri del machine learning a monitorare regolarmente le previsioni relative ai pregiudizi. Man mano che il modello viene monitorato, i clienti possono visualizzare report e grafici esportabili che descrivono in dettaglio le distorsioni in SageMaker Studio e configurare avvisi in Amazon CloudWatch per ricevere notifiche se viene rilevata una distorsione oltre una certa soglia. I bias possono introdursi o aumentare nei modelli di machine learning implementati, quando i dati di addestramento differiscono dai dati che il modello riscontra durante l'implementazione (ovvero i dati in tempo reale). Questi tipi di cambiamento nella distribuzione dei dati in tempo reale possono essere temporanei (ad esempio, dovuti ad alcuni eventi reali di breve durata) o permanenti. In entrambi i casi, potrebbe essere importante rilevare questi cambiamenti. Ad esempio, i risultati di un modello per la previsione dei prezzi delle abitazioni possono distorcersi, se i tassi ipotecari utilizzati per elaborare il modello differiscono dagli attuali tassi ipotecari del mondo reale. Con le funzionalità di rilevamento delle distorsioni in Model Monitor, quando SageMaker rileva distorsioni oltre una certa soglia, genera automaticamente parametri che puoi visualizzare in Studio SageMaker e tramite gli avvisi di Amazon. CloudWatch

In generale, misurare la distorsione solo durante la fase potrebbe non essere sufficiente. train-and-deploy È possibile che in seguito all'implementazione del modello, la distribuzione dei dati visualizzati dal modello implementato (ovvero i dati in tempo reale) sia diversa dalla distribuzione dei dati nel set di dati di addestramento. Nel tempo, questo cambiamento potrebbe introdurre dei bias nel modello. La modifica nella distribuzione dei dati in tempo reale potrebbe essere temporanea (ad esempio, a causa di andamenti di breve durata come nel caso delle festività natalizie) o permanente. In entrambi i casi, potrebbe essere importante rilevare questi cambiamenti e adottare misure per ridurre il bias quando necessario.

Per rilevare queste modifiche, SageMaker Clarify offre funzionalità per monitorare continuamente le metriche di distorsione di un modello distribuito e generare avvisi automatici se le metriche superano una soglia. Consideriamo per esempio il parametro di bias della DPPL. Specifica un intervallo di valori consentito A =( amin​, amax​), ad esempio un intervallo di (-0,1; 0,1), a cui dovrebbe appartenere la DPPL durante l'implementazione. Qualsiasi deviazione da questo intervallo dovrebbe generare un avviso di rivelazione dei bias. Con SageMaker Clarify, è possibile eseguire questi controlli a intervalli regolari.

Ad esempio, è possibile impostare la frequenza dei controlli su 2 giorni. Ciò significa che SageMaker Clarify calcola la metrica DPPL sui dati raccolti in una finestra di 2 giorni. In questo esempio, Dwin sono i dati che il modello ha elaborato durante gli ultimi 2 giorni. Viene emesso un avviso se il valore DPPL bwin​ calcolato su Dwin​ non rientra nell'intervallo consentito A. Questo approccio per verificare se bwin è al di fuori di A può essere alquanto rumoroso. Dwin​ potrebbe essere costituito da pochissimi campioni e potrebbe non essere rappresentativo della distribuzione dei dati in tempo reale. Una dimensione del campione piccola significa che il valore del bias bwin​ calcolato su Dwin​ potrebbe non essere una stima molto affidabile. In effetti, valori molto alti (o bassi) di bwin potrebbero essere dovuti al caso. Per garantire che le conclusioni tratte dai dati osservati D win siano statisticamente significative, SageMaker Clarify utilizza intervalli di confidenza. In particolare, utilizza il metodo Normal Bootstrap Interval per costruire un intervallo C =( cmin, cmax) in modo tale che SageMaker Clarify sia sicuro che il vero valore di distorsione calcolato sui dati live completi sia contenuto in C con alta probabilità. Ora, se l'intervallo di confidenza C si sovrappone all'intervallo consentito A, SageMaker Clarify lo interpreta come «è probabile che il valore metrico di distorsione della distribuzione dei dati in tempo reale rientri nell'intervallo consentito». Se C e A sono disgiunti, SageMaker Clarify è sicuro che la metrica di distorsione non si trovi in A e genera un avviso.

Notebook di esempio per il monitoraggio del modello

Amazon SageMaker Clarify fornisce il seguente notebook di esempio che mostra come acquisire dati di inferenza per un endpoint in tempo reale, creare una linea di base per monitorare i pregiudizi in evoluzione e ispezionare i risultati:

È stato verificato che questo notebook funzioni solo in Amazon SageMaker Studio. Se hai bisogno di istruzioni su come aprire un notebook in Amazon SageMaker Studio, consultaCrea o apri un notebook Amazon SageMaker Studio Classic. Se ti viene richiesto di scegliere un kernel, scegli Python 3 (Data Science). I seguenti argomenti contengono i punti salienti delle ultime due fasi e contengono esempi di codice tratti dal notebook di esempio.