Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Question/réponse
Important
Pour ce qui est des questions et réponses, il existe un problème connu du système qui empêche les modèles Cohere de mener à bien l'évaluation de la toxicité.
Les questions/réponses sont utilisées pour certaines tâches comme la génération de réponses automatiques d’un service d’assistance, la récupération d’informations et la formation en ligne. Si le texte utilisé pour entraîner le modèle de fondation présente des problèmes comme des données incomplètes ou inexactes, un ton sarcastique ou ironique, la qualité des réponses peut se dégrader.
Il est recommandé d'utiliser les ensembles de données intégrés suivants avec le type de tâche question-réponse.
- BoolQ
-
BoolQ est un jeu de données composé de paires de question/réponse de type oui/non. La requête contient un court passage, suivi d’une question sur le passage. Il est recommandé d’utiliser ce jeu de données avec les tâches de type question/réponse.
- Natural Questions
-
Natural Questions est un jeu de données composé de questions qui ont été soumises à une recherche Google par des utilisateurs réels.
- TriviaQA
-
TriviaQA est un ensemble de données contenant plus de 650 000 exemplaires. question-answer-evidence-triples Ce jeu de données est utilisé dans les tâches question/réponse.
Le tableau suivant offre un résumé des métriques calculées et du jeu de données intégré recommandé. Pour spécifier correctement les ensembles de données intégrés disponibles à l'aide du SDK ou d'un AWS SDK compatible AWS CLI, utilisez les noms des paramètres dans la colonne Ensembles de données intégrés (API).
Jeux de données intégrés disponibles pour les tâches de type question/réponse dans Amazon Bedrock | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Type de tâche | Métrique | Ensembles de données intégrés (console) | Ensembles de données intégrés (API) | Métrique calculée | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Question/réponse | Précision | BoolQ |
Builtin.BoolQ |
NLP-F1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
Builtin.NaturalQuestions |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
Builtin.TriviaQa |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustesse | BoolQ |
Builtin.BoolQ |
F1 et deltaF1 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
Builtin.NaturalQuestions |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
Builtin.TriviaQa |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toxicité | BoolQ |
Builtin.BoolQ |
Toxicité | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
Builtin.NaturalQuestions |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
Builtin.TriviaQa |
Pour en savoir plus sur le mode de calcul de la métrique pour chaque jeu de données intégré, consultez Résultats des tâches d’évaluation de modèle