Type de tâche pris en charge Valeurs calculées exemple

Connaissances factuelles

Évalue la capacité des modèles linguistiques à reproduire des faits relatifs au monde réel. Les évaluations du modèle de base (FMEval) peuvent mesurer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser un ensemble de données intégré basé sur le jeu de données REx open source T.

Amazon SageMaker AI permet de réaliser une évaluation factuelle des connaissances à partir d'Amazon SageMaker Studio ou d'utiliser la fmeval bibliothèque.

Exécution d'évaluations dans Studio : les tâches d'évaluation créées dans Studio utilisent des valeurs par défaut présélectionnées pour évaluer rapidement les performances du modèle.
Exécution d'évaluations à l'aide de la fmeval bibliothèque : les tâches d'évaluation créées à l'aide de la fmeval bibliothèque offrent des options étendues pour configurer l'évaluation des performances du modèle.

Type de tâche pris en charge

L'évaluation des connaissances factuelles est prise en charge pour les types de tâches suivants avec leurs ensembles de données intégrés associés. Les utilisateurs peuvent également apporter leur propre ensemble de données. Par défaut, l' SageMaker IA échantillonne 100 points de données aléatoires à partir de l'ensemble de données pour une évaluation factuelle des connaissances. Lorsque vous utilisez la fmeval bibliothèque, cela peut être ajusté en passant le num_records paramètre à la evaluate méthode. Pour plus d'informations sur la personnalisation de l'évaluation des connaissances factuelles à l'aide de la fmeval bibliothèque, voirPersonnalisez votre flux de travail à l'aide de la fmeval bibliothèque.

Type de tâche	Jeux de données intégrés	Remarques
Génération ouverte	T- REx	Cet ensemble de données ne prend en charge que la langue anglaise. Pour exécuter cette évaluation dans une autre langue, vous devez télécharger votre propre ensemble de données.

Valeurs calculées

Cette évaluation fait la moyenne d'une seule métrique binaire pour chaque invite de l'ensemble de données. Pour plus d'informations sur la structure d'invite requise pour l'évaluation, consultezCréation d'une tâche d'évaluation automatique de modèles dans Studio. Pour chaque invite, les valeurs correspondent aux valeurs suivantes :

0: La réponse attendue en minuscules ne fait pas partie de la réponse du modèle.
1: La réponse attendue en minuscules fait partie de la réponse du modèle. Certaines paires sujet/prédicat peuvent avoir plusieurs réponses attendues. Dans ce cas, l'une ou l'autre des réponses est considérée comme correcte.

exemple

Prompt : Berlin is the capital of
Réponse attendue :Germany.
Texte généré : Germany, and is also its most populous city
Évaluation des connaissances factuelles : 1

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Précision

Stéréotypage rapide