Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Utilizzo di set di dati dei prompt nei processi di valutazione del modello
Amazon Bedrock fornisce set di dati dei prompt integrati che possono essere utilizzati nelle valutazioni del modello automatiche, oppure puoi portare il tuo set di dati dei prompt. Ogni set di dati integrato è basato su un set di dati open source. Abbiamo sottoposto a campionamento casuale ogni set di dati open source per includere solo 100 prompt.
Quando crei un processo di valutazione del modello automatica e scegli un Tipo di attività, Amazon Bedrock ti fornisce un elenco di metriche consigliate. Per ogni metrica, Amazon Bedrock fornisce anche set di dati integrati consigliati. Per ulteriori informazioni sui tipi di attività disponibili, consulta Attività di valutazione del modello.
- Bias in Open-ended Language Generation Dataset (BOLD)
-
Il Bias in Open-ended Language Generation Dataset (BOLD) è un set di dati che valuta l'equità nella generazione di testo generale, concentrandosi su cinque domini: professione, genere, etnia, ideologie religiose e ideologie politiche. Contiene 23.679 diversi prompt per la generazione di testo.
- RealToxicityPrompts
-
RealToxicityPrompts è un set di dati che valuta la tossicità. Tenta di far sì che il modello generi un linguaggio razzista, sessista o altrimenti tossico. Questo set di dati contiene 23.679 diversi prompt per la generazione di testo.
- T-Rex: un allineamento su larga scala del linguaggio naturale con Knowledge Base Triples (TREX)
-
TREX è un set di dati composto da Knowledge Base Triples (KBT) estratti da Wikipedia. I KBT sono un tipo di struttura dati utilizzata nell'elaborazione del linguaggio naturale (NLP) e nella rappresentazione della conoscenza. Sono costituiti da un soggetto, un predicato e un oggetto, in cui il soggetto e l'oggetto sono collegati da una relazione. Un esempio di Knowledge Base Triple (KBT) è "George Washington era il presidente degli Stati Uniti". Il soggetto è "George Washington", il predicato è "era il presidente degli" e l'oggetto è "gli Stati Uniti".
- WikiText2
-
WikiText2 è un HuggingFace set di dati che contiene i prompt utilizzati nella generazione generale di testo.
- Gigaword
-
Il set di dati Gigaword è composto da titoli di articoli di notizie. Questo set di dati viene utilizzato nelle attività di riepilogo del testo.
- BoolQ
-
BoolQ è un set di dati composto da coppie di domande e risposte sì/no. Il prompt contiene un breve brano e quindi una domanda sul brano. Questo set di dati è consigliato per l'uso con tipi di attività di domande e risposte.
- Natural questions
-
Natural question è un set di dati composto da domande reali degli utenti inviate alla ricerca Google.
- TriviaQA
-
TriviaQA è un set di dati che contiene oltre 650.000. question-answer-evidence-triples Questo set di dati viene utilizzato nelle attività di domande e risposte.
- Women's E-Commerce Clothing Reviews
-
Women's E-Commerce Clothing Reviews è un set di dati che contiene recensioni di abbigliamento scritte dai clienti. Questo set di dati viene utilizzato nelle attività di classificazione del testo.
Nella tabella seguente, puoi vedere l'elenco dei set di dati disponibili raggruppati per tipo di attività. Per ulteriori informazioni su come vengono calcolate le metriche automatiche, consulta Schede del processo di valutazione del modello automatica (console).
Set di dati integrati disponibili per processi di valutazione del modello automatica in Amazon Bedrock | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Tipo di attività | Parametro | Set di dati integrati | Metrica calcolata | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Generazione di testo generale | Accuratezza | TREX |
Punteggio RWK (conoscenza del mondo reale) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustezza | Percentuale di errore di Word | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
WikiText2 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
English Wikipedia |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Tossicità | Tossicità | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BOLD |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Riepilogo del testo | Accuratezza | Gigaword |
BERTScore | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Tossicità | Gigaword |
Tossicità | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustezza | Gigaword |
BERTScore e deltaBERTScore | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Domande e risposte | Accuratezza | BoolQ |
NLP-F1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustezza | BoolQ |
F1 e deltaF1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Tossicità | BoolQ |
Tossicità | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Classificazione del testo | Accuratezza | Women's Ecommerce Clothing Reviews |
Accuratezza (accuratezza binaria da classification_accuracy_score) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Women's Ecommerce Clothing Reviews |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Women's Ecommerce Clothing Reviews |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustezza | Women's Ecommerce Clothing Reviews |
classification_accuracy_score e delta_classification_accuracy_score |
Per ulteriori informazioni sui requisiti per la creazione ed esempi di set di dati dei prompt personalizzati, consulta Set di dati dei prompt personalizzato.