Esamina i parametri per un processo di valutazione automatizzata del modello in Amazon Bedrock (console)

Puoi esaminare le metriche presentate in un report per un lavoro di valutazione automatica del modello utilizzando la console Amazon Bedrock.

Nella scheda di valutazione del modello, vedrai il numero totale di prompt nel set di dati che hai fornito o selezionato e quanti di questi prompt hanno ricevuto risposte. Se il numero di risposte è inferiore al numero di richieste di input, assicurati di controllare il file di output dei dati nel tuo bucket Amazon S3. È possibile che il prompt abbia causato un errore nel modello e che non sia stata recuperata alcuna inferenza. Nei calcoli metrici verranno utilizzate solo le risposte del modello.

Utilizza la seguente procedura per esaminare un processo di valutazione del modello automatica sulla console Amazon Bedrock.

Apri la console Amazon Bedrock.
Nel riquadro di navigazione seleziona Valutazione del modello.
Successivamente, nella tabella Valutazioni del modello, trova il nome del processo di valutazione del modello automatizzata che desideri esaminare. Quindi, selezionalo.

In tutte le metriche relative alla robustezza semantica, Amazon Bedrock modifica i prompt nei seguenti modi: converte il testo in lettere minuscole, errori di battitura sulla tastiera, converte numeri in parole, modifiche casuali in lettere maiuscole e spazi bianchi casuali. addition/deletion

Dopo aver aperto il report di valutazione del modello, puoi visualizzare le metriche riepilogate e il Riepilogo della configurazione del processo.

Per ogni metrica e set di dati dei prompt specificati al momento della creazione del processo, vengono visualizzati una scheda e un valore per ogni set di dati specificato per quella metrica. Il modo in cui viene calcolato questo valore cambia in base al tipo di attività e alle metriche selezionate.

Come viene calcolata ogni metrica disponibile quando è applicata al tipo di attività generale di generazione di testo

Accuratezza: per questa metrica, il valore viene calcolato utilizzando il punteggio di conoscenza del mondo reale (punteggio RWK). Il punteggio RWK esamina la capacità del modello di codificare la conoscenza effettiva del mondo reale. Un punteggio RWK elevato indica che il modello è accurato.
Robustezza: per questa metrica, il valore viene calcolato utilizzando la robustezza semantica. Tale valore viene calcolato utilizzando il tasso di errore delle parole. La robustezza semantica misura quanto cambia l'output del modello a seguito di piccole perturbazioni di conservazione semantica nell'input. La robustezza a fronte di tali perturbazioni è una proprietà auspicabile, e quindi un punteggio di robustezza semantica basso indica che il modello sta funzionando bene.

I tipi di perturbazione che prenderemo in considerazione sono: conversione del testo in lettere minuscole, errori di battitura da tastiera, conversione di numeri in parole, modifiche casuali in lettere maiuscole e casuali addition/deletion di spazi bianchi. Ogni prompt nel set di dati viene perturbato circa 5 volte. Quindi, ogni risposta perturbata viene inviata per l'inferenza e utilizzata per calcolare automaticamente i punteggi di robustezza.
Tossicità: per questa metrica, il valore viene calcolato utilizzando la tossicità dell'algoritmo di disintossicazione. Un valore di tossicità basso indica che il modello selezionato non produce grandi quantità di contenuto tossico. Per saperne di più sull'algoritmo di disintossicazione e su come viene calcolata la tossicità, consulta l'algoritmo di disintossicazione su. GitHub

Come viene calcolata ogni metrica disponibile quando è applicata al tipo di attività di riepilogo del testo

Accuratezza: per questa metrica, il valore viene calcolato utilizzando il punteggio BERT. Il punteggio BERT viene calcolato utilizzando incorporamenti contestuali pre-addestrati dai modelli BERT. Mette in associazione le parole nelle frasi candidate e di riferimento per similarità del coseno.
Robustezza: per questa metrica, il valore calcolato è una percentuale. È stato calcolato prendendo (Delta BERTScore /) x 100. BERTScore Delta BERTScore è la differenza nei punteggi BERT tra un prompt perturbato e il prompt originale nel set di dati. Ogni prompt nel set di dati viene perturbato circa 5 volte. Quindi, ogni risposta perturbata viene inviata per l'inferenza e utilizzata per calcolare automaticamente i punteggi di robustezza. Un punteggio più basso indica che il modello selezionato è più robusto.
Tossicità: per questa metrica, il valore viene calcolato utilizzando la tossicità dell'algoritmo di disintossicazione. Un valore di tossicità basso indica che il modello selezionato non produce grandi quantità di contenuto tossico. Per saperne di più sull'algoritmo di disintossicazione e vedere come viene calcolata la tossicità, consulta l'algoritmo di disintossicazione su. GitHub

Come viene calcolata ogni metrica disponibile quando applicata al tipo di attività domande e risposte

Accuratezza: per questa metrica, il valore viene calcolato utilizzando il punteggio F1. Il punteggio F1 viene calcolato dividendo il punteggio di precisione (il rapporto tra i pronostici corretti e tutti i pronostici) per il punteggio di richiamo (il rapporto tra le previsioni corrette e il numero totale di previsioni pertinenti). Il punteggio F1 varia da 0 a 1, con valori più alti che indicano prestazioni migliori.
Robustezza: per questa metrica, il valore calcolato è una percentuale. Viene calcolato prendendo (Delta F1/F1) x 100. Delta F1 è la differenza nei punteggi F1 tra un prompt perturbato e il prompt originale nel set di dati. Ogni prompt nel set di dati viene perturbato circa 5 volte. Quindi, ogni risposta perturbata viene inviata per l'inferenza e utilizzata per calcolare automaticamente i punteggi di robustezza. Un punteggio più basso indica che il modello selezionato è più robusto.
Tossicità: per questa metrica, il valore viene calcolato utilizzando la tossicità dell'algoritmo di disintossicazione. Un valore di tossicità basso indica che il modello selezionato non produce grandi quantità di contenuto tossico. Per ulteriori informazioni sull'algoritmo di disintossicazione e su come viene calcolata la tossicità, consulta l'algoritmo di disintossicazione su. GitHub

Come viene calcolata ogni metrica disponibile quando applicata al tipo di attività di classificazione del testo

Accuratezza: per questa metrica, il valore viene calcolato è l'accuratezza. L'accuratezza è un punteggio che confronta la classe prevista con la relativa etichetta di verità fondamentale. Una maggiore precisione indica che il modello sta classificando correttamente il testo in base all'etichetta di verità fondamentale fornita.
Robustezza: per questa metrica, il valore calcolato è una percentuale. Viene calcolato prendendo (punteggio di precisione della classificazione delta/punteggio di precisione della classificazione) x 100. Il punteggio di precisione della classificazione Delta è la differenza tra il punteggio di precisione della classificazione del prompt perturbato e il prompt di input originale. Ogni prompt nel set di dati viene perturbato circa 5 volte. Quindi, ogni risposta perturbata viene inviata per l'inferenza e utilizzata per calcolare automaticamente i punteggi di robustezza. Un punteggio più basso indica che il modello selezionato è più robusto.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Report e metriche per la valutazione dei modelli

Rivedi un lavoro di valutazione di modelli umani