Schede di valutazione del processo di valutazione del modello umana (console) - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Schede di valutazione del processo di valutazione del modello umana (console)

Nella scheda di valutazione del modello, vedrai il numero totale di prompt nel set di dati che hai fornito o selezionato e quanti di questi prompt hanno ricevuto risposte. Se il numero di risposte è inferiore al numero di prompt di input moltiplicato per il numero di worker per prompt configurato nel processo (1, 2 o 3), assicurati di controllare il file di output dei dati nel tuo bucket Amazon S3. È possibile che il prompt abbia causato un errore nel modello e che non sia stata recuperata alcuna inferenza. Inoltre, uno o più dipendenti avrebbero potuto rifiutarsi di valutare la risposta dell'output del modello. Nei calcoli metrici verranno utilizzate solo le risposte del lavoratore umano.

Utilizza la seguente procedura per aprire una valutazione del modello che utilizzava lavoratori umani sulla console Amazon Bedrock.

  1. Apri la console Amazon Bedrock.

  2. Nel riquadro di navigazione seleziona Valutazione del modello.

  3. Successivamente, nella tabella Valutazioni dei modelli, trova il nome del processo di valutazione del modello che desideri esaminare. Quindi, selezionalo.

Il report di valutazione del modello fornisce approfondimenti sui dati raccolti durante un processo di valutazione umana utilizzando le schede di valutazione. Ogni scheda di valutazione mostra la metrica, la descrizione e il metodo di valutazione, oltre a una visualizzazione dei dati che rappresenta i dati raccolti per la determinata metrica.

In ognuna delle seguenti sezioni, puoi vedere un esempio dei 5 possibili metodi di valutazione visualizzati dal tuo team di lavoro nell'interfaccia utente di valutazione. Gli esempi mostrano anche quale coppia chiave-valore viene utilizzata per salvare i risultati in Amazon S3.

Scala Likert, confronto di output di più modelli

I valutatori umani indicano la loro preferenza tra le due risposte del modello su una scala Likert a 5 punti secondo le istruzioni da te fornite. I risultati del report finale verranno visualizzati sotto forma di istogramma delle valutazioni di intensità delle preferenze fornite dai valutatori sull'intero set di dati.

Assicurati di definire i punti importanti della scala a 5 punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative.

Questa è la mia immagine.
Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "comparisonLikertScale".

Tasti di scelta (pulsante radio)

I pulsanti di scelta consentono a un valutatore umano di indicare la propria risposta preferita rispetto a un'altra risposta. I valutatori indicano la loro preferenza tra due risposte in base alle istruzioni da te fornite con i pulsanti di opzione. I risultati del report finale verranno visualizzati come percentuale delle risposte preferite dai lavoratori per ciascun modello. Assicurati di spiegare chiaramente il tuo metodo di valutazione nelle istruzioni.

Questa è la mia immagine.
Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "comparisonChoice".

Classificazione ordinale

La classificazione ordinale consente a un valutatore umano di classificare le proprie risposte preferite a un prompt in ordine, a partire da 1 in base alle istruzioni fornite. I risultati del report finale verranno visualizzati sotto forma di istogramma delle classificazioni fornite dai valutatori sull'intero set di dati. Assicurati di definire cosa significa un grado pari a 1 nelle tue istruzioni. Questo tipo di dati si chiama Preference Rank.

Questa è la mia immagine.
Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "comparisonRank".

Pollice su/giù

Il pollice su/giù consente a un valutatore umano di valutare ogni risposta di un modello come accettabile/inaccettabile in base alle istruzioni fornite. I risultati del report finale saranno mostrati come percentuale del numero totale di valutazioni da parte dei valutatori che hanno ricevuto un pollice in su per ciascun modello. Puoi utilizzare questo metodo di valutazione per un processo di valutazione del modello che contiene uno o più modelli. Se utilizzi questa funzione in una valutazione che contiene due modelli, al team di lavoro verrà presentato un pollice su/giù per ciascuna risposta del modello e il report finale mostrerà i risultati aggregati di ogni singolo modello. Assicurati di definire cosa è accettabile (ovvero cos'è una valutazione con il pollice in su) nelle istruzioni.

Questa è la mia immagine.
Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "thumbsUpDown".

Scala Likert, valutazione della risposta di un singolo modello

Consente a un valutatore umano di indicare in che misura ha approvato la risposta del modello sulla base delle istruzioni fornite su una scala Likert a 5 punti. I risultati del report finale verranno visualizzati sotto forma di istogramma delle valutazioni a 5 punti dei valutatori sull'intero set di dati. Puoi utilizzare questo metodo di valutazione per valutare uno o più modelli. Se selezioni questo metodo di valutazione che contiene più di un modello, al team di lavoro verrà presentato un pollice su/giù per ciascuna risposta del modello e il report finale mostrerà i risultati aggregati per ciascun singolo modello. Assicurati di definire i punti importanti della scala a 5 punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative.

Questa è la mia immagine.
Output JSON

La prima chiave secondaria sotto evaluationResults indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore "evaluationResults": "individualLikertScale".