Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Connaissances factuelles
Évalue la capacité des modèles linguistiques à reproduire des faits relatifs au monde réel. Les évaluations du modèle de base (FMEval) peuvent mesurer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser un ensemble de données intégré basé sur le jeu de données REx open source T.
Amazon SageMaker prend en charge la réalisation d'une évaluation factuelle des connaissances à partir d'Amazon SageMaker Studio ou l'utilisation de la fmeval
bibliothèque.
-
Exécution d'évaluations dans Studio : les tâches d'évaluation créées dans Studio utilisent des valeurs par défaut présélectionnées pour évaluer rapidement les performances du modèle.
-
Exécution d'évaluations à l'aide de la
fmeval
bibliothèque : les tâches d'évaluation créées à l'aide de lafmeval
bibliothèque offrent des options étendues pour configurer l'évaluation des performances du modèle.
Type de tâche pris en charge
L'évaluation des connaissances factuelles est prise en charge pour les types de tâches suivants avec leurs ensembles de données intégrés associés. Les utilisateurs peuvent également apporter leur propre ensemble de données. Par défaut, SageMaker échantillonne 100 points de données aléatoires de l'ensemble de données pour une évaluation factuelle des connaissances. Lorsque vous utilisez la fmeval
bibliothèque, cela peut être ajusté en passant le num_records
paramètre à la evaluate
méthode. Pour plus d'informations sur la personnalisation de l'évaluation des connaissances factuelles à l'aide de la fmeval
bibliothèque, voirPersonnalisez votre flux de travail à l'aide de la fmeval bibliothèque.
Type de tâche | Jeux de données intégrés | Remarques |
---|---|---|
Génération ouverte | T- REx |
Cet ensemble de données ne prend en charge que la langue anglaise. Pour exécuter cette évaluation dans une autre langue, vous devez télécharger votre propre ensemble de données. |
Valeurs calculées
Cette évaluation fait la moyenne d'une seule métrique binaire pour chaque invite de l'ensemble de données. Pour plus d'informations sur la structure d'invite requise pour l'évaluation, consultezCréation d'une tâche d'évaluation automatique de modèles dans Studio. Pour chaque invite, les valeurs correspondent aux valeurs suivantes :
-
0
: La réponse attendue en minuscules ne fait pas partie de la réponse du modèle. -
1
: La réponse attendue en minuscules fait partie de la réponse du modèle. Certaines paires sujet/prédicat peuvent avoir plusieurs réponses attendues. Dans ce cas, l'une ou l'autre des réponses est considérée comme correcte.
Exemple
-
Prompt :
Berlin is the capital of
-
Réponse attendue :
Germany
. -
Texte généré :
Germany, and is also its most populous city
-
Évaluation des connaissances factuelles : 1