Utilisation de jeux de données de requêtes intégrés dans les tâches d’évaluation de modèle automatique - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de jeux de données de requêtes intégrés dans les tâches d’évaluation de modèle automatique

Amazon Bedrock fournit plusieurs jeux de données de requêtes intégrés que vous pouvez utiliser dans une tâche d’évaluation de modèle automatique. Chaque jeu de données intégré est dérivé d’un jeu de données open source. Nous avons sous-échantillonné au hasard chaque ensemble de données open source pour n'inclure que 100 invites.

Lorsque vous créez une tâche d’évaluation de modèle automatique et que vous choisissez un Type de tâche, Amazon Bedrock vous propose une liste de métriques recommandées. Pour chaque métrique, Amazon Bedrock propose également des jeux de données intégrés recommandés. Pour en savoir plus sur les types de tâches disponibles, consultez Tâches d’évaluation de modèle.

Jeu de données BOLD (Biais in Open-ended Language Generation Dataset)

Le jeu de données BOLD (Bias in Open-ended Language Generation Dataset) évalue l’impartialité dans la génération de texte général, en se concentrant sur cinq axes : la profession, le sexe, l’origine ethnique, les idéologies religieuses et les idéologies politiques. Il comporte 23 679 requêtes de génération de texte différentes.

RealToxicityPrompts

RealToxicityPrompts est un ensemble de données qui évalue la toxicité. Il teste le modèle en tentant de lui faire générer un langage à connotation raciste, sexiste ou de nature toxique. Ce jeu de données comporte 100 000 requêtes de génération de texte différentes.

T-Rex : alignement à grande échelle du langage naturel sur des triplets de base de connaissances (TREX)

TREX est un jeu de données composé de triplets de base de connaissances (KBT) extraits de Wikipédia. Les KBT consistent en un type de structure de données utilisé dans le traitement du langage naturel (NLP) et la représentation des connaissances. Ils sont constitués d’un sujet, d’un prédicat et d’un objet, le sujet et l’objet étant liés par une relation. Par exemple, « George Washington fut président des États-Unis » est un triplet de base de connaissances (KBT). Le sujet est « George Washington », le prédicat est « fut président » et l’objet est « des États-Unis ».

WikiText2

WikiText2 est un HuggingFace jeu de données qui contient des instructions utilisées dans la génération de texte en général.

Gigaword

Le jeu de données Gigaword comprend les titres d'articles de presse. Ce jeu de données est utilisé dans les tâches de résumé de texte.

BoolQ

BoolQ est un jeu de données composé de paires de question/réponse de type oui/non. La requête contient un court passage, suivi d’une question sur le passage. Il est recommandé d’utiliser ce jeu de données avec les tâches de type question/réponse.

Natural Questions

Natural Questions est un jeu de données composé de questions qui ont été soumises à une recherche Google par des utilisateurs réels.

TriviaQA

TriviaQA est un ensemble de données contenant plus de 650 000 exemplaires. question-answer-evidence-triples Ce jeu de données est utilisé dans les tâches question/réponse.

Women’s E-Commerce Clothing Reviews

Women’s E-Commerce Clothing Reviews est un jeu de données qui contient les avis de clientes sur des articles vestimentaires. Ce jeu de données est utilisé dans les tâches de classification de texte.

Dans le tableau suivant, vous pouvez voir la liste des jeux de données disponibles regroupés par type de tâche. Pour en savoir plus sur le calcul des métriques automatiques, consultez Bulletins de tâches d’évaluation de modèle automatisée (console).

Jeux de données intégrés disponibles pour les tâches d’évaluation de modèle automatique dans Amazon Bedrock
Type de tâche Métrique Jeux de données intégrés Métrique calculée
Génération de texte général Précision TREX Score de connaissance du monde réel (RWK)
Robustesse

BOLD

Taux d’erreur de mots
WikiText2
Wikipédia en anglais
Toxicité

RealToxicityPrompts

Toxicité
BOLD
Synthèse de texte Précision Gigaword BERTScore
Toxicité Gigaword Toxicité
Robustesse Gigaword BERTScore et deltaBERTScore
Question/réponse Précision BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustesse BoolQ F1 et deltaF1
NaturalQuestions
TriviaQA
Toxicité BoolQ Toxicité
NaturalQuestions
TriviaQA
Classification de texte Précision Women’s Ecommerce Clothing Reviews Précision (précision binaire résultant de classification_accuracy_score)
Women’s Ecommerce Clothing Reviews
Women’s Ecommerce Clothing Reviews
Robustesse Women’s Ecommerce Clothing Reviews

classification_accuracy_score et delta_classification_accuracy_score

Pour en savoir plus sur les exigences liées à la création de jeux de données de requêtes personnalisés et pour en obtenir des exemples, consultez Jeu de données de requêtes personnalisé.