Rivedi un lavoro di valutazione di modelli basati sull'uomo in Amazon Bedrock (console) - Amazon Bedrock

Scala Likert, confronto di output di più modelli Tasti di scelta (pulsante radio)Classificazione ordinale Pollice su/giù Scala Likert, valutazione della risposta di un singolo modello

Rivedi un lavoro di valutazione di modelli basati sull'uomo in Amazon Bedrock (console)

Puoi esaminare i dati per la valutazione umana presentati in un report utilizzando la console Amazon Bedrock.

Nella scheda di valutazione del modello, vedrai il numero totale di prompt nel set di dati che hai fornito o selezionato e quanti di questi prompt hanno ricevuto risposte. Se il numero di risposte è inferiore al numero di prompt di input moltiplicato per il numero di worker per prompt configurato nel processo (1, 2 o 3), assicurati di controllare il file di output dei dati nel tuo bucket Amazon S3. È possibile che il prompt abbia causato un errore nel modello e che non sia stata recuperata alcuna inferenza. Inoltre, uno o più dipendenti avrebbero potuto rifiutarsi di valutare la risposta dell'output del modello. Nei calcoli metrici verranno utilizzate solo le risposte del lavoratore umano.

Utilizza la seguente procedura per aprire una valutazione del modello che utilizzava lavoratori umani sulla console Amazon Bedrock.

Apri la console Amazon Bedrock.
Nel riquadro di navigazione seleziona Valutazione del modello.
Successivamente, nella tabella Valutazioni dei modelli, trova il nome del processo di valutazione del modello che desideri esaminare. Quindi, selezionalo.

Il report di valutazione del modello fornisce approfondimenti sui dati raccolti durante un processo di valutazione umana utilizzando le schede di valutazione. Ogni scheda di valutazione mostra la metrica, la descrizione e il metodo di valutazione, oltre a una visualizzazione dei dati che rappresenta i dati raccolti per la determinata metrica.

In ognuna delle seguenti sezioni, puoi vedere un esempio dei 5 possibili metodi di valutazione visualizzati dal tuo team di lavoro nell'interfaccia utente di valutazione. Gli esempi mostrano anche quale coppia chiave-valore viene utilizzata per salvare i risultati in Amazon S3.

Scala Likert, confronto di output di più modelli

I valutatori umani indicano la loro preferenza tra le due risposte del modello su una scala Likert a 5 punti secondo le tue istruzioni. I risultati del report finale verranno visualizzati sotto forma di istogramma delle valutazioni di intensità delle preferenze fornite dai valutatori sull'intero set di dati.

Assicurati di definire i punti importanti della scala a 5 punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative.

Questa è la mia immagine.

Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "comparisonLikertScale".

Tasti di scelta (pulsante radio)

I pulsanti di scelta consentono a un valutatore umano di indicare la propria risposta preferita rispetto a un'altra risposta. I valutatori indicano la loro preferenza tra due risposte in base alle istruzioni da te fornite con i pulsanti di opzione. I risultati del report finale verranno visualizzati come percentuale delle risposte preferite dai lavoratori per ciascun modello. Assicurati di spiegare chiaramente il tuo metodo di valutazione nelle istruzioni.

Questa è la mia immagine.

Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "comparisonChoice".

Classificazione ordinale

La classificazione ordinale consente a un valutatore umano di classificare le proprie risposte preferite a un prompt in ordine, a partire da 1 in base alle istruzioni fornite. I risultati del report finale verranno visualizzati sotto forma di istogramma delle classificazioni fornite dai valutatori sull'intero set di dati. Assicurati di definire cosa significa un grado pari a 1 nelle tue istruzioni. Questo tipo di dati si chiama Preference Rank.

Questa è la mia immagine.

Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "comparisonRank".

Pollice su/giù

Thumbs up/down consente a un valutatore umano di valutare ogni risposta di un modello così come acceptable/unacceptable according to your instructions. The results in the final report will be shown as a percentage of the total number of ratings by evaluators that received a thumbs up rating for each model. You may use this rating method for a model evaluation job that contains one or more models. If you use this in an evaluation that contains two models, a thumbs up/down verrà presentata al team di lavoro per ogni risposta del modello e il rapporto finale mostrerà i risultati aggregati per ogni modello individualmente. Assicurati di definire cosa è accettabile (ovvero cos'è una valutazione con il pollice in su) nelle istruzioni.

Questa è la mia immagine.

Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "thumbsUpDown".

Scala Likert, valutazione della risposta di un singolo modello

Consente a un valutatore umano di indicare in che misura ha approvato la risposta del modello sulla base delle istruzioni fornite su una scala Likert a 5 punti. I risultati del report finale verranno visualizzati sotto forma di istogramma delle valutazioni a 5 punti dei valutatori sull'intero set di dati. Puoi utilizzare questo metodo di valutazione per valutare uno o più modelli. Se selezioni questo metodo di valutazione che contiene più di un modello, al team di lavoro verrà presentato un pollice su/giù per ciascuna risposta del modello e il report finale mostrerà i risultati aggregati per ciascun singolo modello. Assicurati di definire i punti importanti della scala a 5 punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative.

Questa è la mia immagine.

Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "individualLikertScale".

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Rivedi le metriche per un lavoro di valutazione automatizzata del modello

Comprendi l'output di Amazon S3 da un processo di valutazione del modello