Utilisation de jeux de données de requêtes intégrés dans les tâches d’évaluation de modèle automatique

Amazon Bedrock fournit plusieurs jeux de données de requêtes intégrés que vous pouvez utiliser dans une tâche d’évaluation de modèle automatique. Chaque jeu de données intégré est dérivé d’un jeu de données open source. Nous avons sous-échantillonné au hasard chaque ensemble de données open source pour n'inclure que 100 invites.

Lorsque vous créez une tâche d’évaluation de modèle automatique et que vous choisissez un Type de tâche, Amazon Bedrock vous propose une liste de métriques recommandées. Pour chaque métrique, Amazon Bedrock propose également des jeux de données intégrés recommandés. Pour en savoir plus sur les types de tâches disponibles, consultez Tâches d’évaluation de modèle.

Jeu de données BOLD (Biais in Open-ended Language Generation Dataset): Le jeu de données BOLD (Bias in Open-ended Language Generation Dataset) évalue l’impartialité dans la génération de texte général, en se concentrant sur cinq axes : la profession, le sexe, l’origine ethnique, les idéologies religieuses et les idéologies politiques. Il comporte 23 679 requêtes de génération de texte différentes.
RealToxicityPrompts: RealToxicityPrompts est un ensemble de données qui évalue la toxicité. Il teste le modèle en tentant de lui faire générer un langage à connotation raciste, sexiste ou de nature toxique. Ce jeu de données comporte 100 000 requêtes de génération de texte différentes.
T-Rex : alignement à grande échelle du langage naturel sur des triplets de base de connaissances (TREX): TREX est un jeu de données composé de triplets de base de connaissances (KBT) extraits de Wikipédia. Les KBT consistent en un type de structure de données utilisé dans le traitement du langage naturel (NLP) et la représentation des connaissances. Ils sont constitués d’un sujet, d’un prédicat et d’un objet, le sujet et l’objet étant liés par une relation. Par exemple, « George Washington fut président des États-Unis » est un triplet de base de connaissances (KBT). Le sujet est « George Washington », le prédicat est « fut président » et l’objet est « des États-Unis ».
WikiText2: WikiText2 est un HuggingFace jeu de données qui contient des instructions utilisées dans la génération de texte en général.
Gigaword: Le jeu de données Gigaword comprend les titres d'articles de presse. Ce jeu de données est utilisé dans les tâches de résumé de texte.
BoolQ: BoolQ est un jeu de données composé de paires de question/réponse de type oui/non. La requête contient un court passage, suivi d’une question sur le passage. Il est recommandé d’utiliser ce jeu de données avec les tâches de type question/réponse.
Natural Questions: Natural Questions est un jeu de données composé de questions qui ont été soumises à une recherche Google par des utilisateurs réels.
TriviaQA: TriviaQA est un ensemble de données contenant plus de 650 000 exemplaires. question-answer-evidence-triples Ce jeu de données est utilisé dans les tâches question/réponse.
Women’s E-Commerce Clothing Reviews: Women’s E-Commerce Clothing Reviews est un jeu de données qui contient les avis de clientes sur des articles vestimentaires. Ce jeu de données est utilisé dans les tâches de classification de texte.

Dans le tableau suivant, vous pouvez voir la liste des jeux de données disponibles regroupés par type de tâche. Pour en savoir plus sur le calcul des métriques automatiques, consultez Bulletins de tâches d’évaluation de modèle automatisée (console).

Jeux de données intégrés disponibles pour les tâches d’évaluation de modèle automatique dans Amazon Bedrock
Type de tâche	Métrique	Jeux de données intégrés	Métrique calculée
Génération de texte général	Précision	TREX	Score de connaissance du monde réel (RWK)
	Robustesse	BOLD	Taux d’erreur de mots
		WikiText2
		Wikipédia en anglais
	Toxicité	RealToxicityPrompts	Toxicité
	Toxicité	BOLD	Toxicité
Synthèse de texte	Précision	Gigaword	BERTScore
	Toxicité	Gigaword	Toxicité
	Robustesse	Gigaword	BERTScore et deltaBERTScore
Question/réponse	Précision	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustesse	BoolQ	F1 et deltaF1
		NaturalQuestions
		TriviaQA
	Toxicité	BoolQ	Toxicité
		NaturalQuestions
		TriviaQA
Classification de texte	Précision	Women’s Ecommerce Clothing Reviews	Précision (précision binaire résultant de classification_accuracy_score)
		Women’s Ecommerce Clothing Reviews
		Women’s Ecommerce Clothing Reviews
	Robustesse	Women’s Ecommerce Clothing Reviews	classification_accuracy_score et delta_classification_accuracy_score

Pour en savoir plus sur les exigences liées à la création de jeux de données de requêtes personnalisés et pour en obtenir des exemples, consultez Jeu de données de requêtes personnalisé.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Jeux de données de requêtes en entrée

Jeux de données de requêtes personnalisés