Bulletins de tâches d’évaluation de modèle automatisée (console)

Le bulletin d’évaluation de modèle indique le nombre total de requêtes contenues dans le jeu de données que vous avez fourni ou sélectionné, ainsi que le nombre de ces requêtes qui ont obtenu des réponses. S’il y a moins de réponses que de requêtes en entrée, vérifiez le fichier de sortie de données dans votre compartiment Amazon S3. Il est possible que la requête ait provoqué une erreur dans le modèle et qu’aucune inférence n’ait été extraite. Seules les réponses du modèle sont alors utilisées dans les calculs de métriques.

Utilisez la procédure suivante pour examiner une tâche d’évaluation de modèle automatique sur la console Amazon Bedrock.

Ouvrez la console Amazon Bedrock.
À partir du volet de navigation, choisissez Évaluation de modèle.
Ensuite, dans le tableau Évaluations de modèle, trouvez le nom de la tâche d’évaluation de modèle automatique que vous souhaitez examiner. Après quoi, choisissez-la.

Dans toutes les métriques liées à la robustesse sémantique, Amazon Bedrock perturbe les requêtes de la façon suivante : conversion de l’ensemble du texte en minuscules, fautes de frappe clavier, conversion des nombres en mots, mises en majuscules aléatoires et ajout/suppression aléatoires d’espaces blancs.

Après avoir ouvert le rapport d’évaluation de modèle, vous pouvez consulter un résumé des métriques, ainsi que le résumé de la configuration de la tâche.

Pour chaque métrique et chaque jeu de données de requêtes spécifiés pendant la création de la tâche, vous voyez une carte et une valeur pour chaque jeu de données spécifié pour une métrique. La façon dont cette valeur est calculée varie en fonction du type de tâche et des métriques sélectionnées.

Mode de calcul de chaque métrique disponible lorsqu’elle est appliquée à une tâche de type génération de texte général

Précision : Pour cette métrique, la valeur est calculée à l'aide du score de connaissances du monde réel (RWKscore). RWKscore examine la capacité du modèle à encoder des connaissances factuelles sur le monde réel. Un RWK score élevé indique que votre modèle est précis.
Robustesse : pour cette métrique, la valeur est calculée à partir de la robustesse sémantique. Cette dernière est calculée à partir du taux d’erreur de mots. La robustesse sémantique détermine dans quelle mesure la sortie du modèle change à la suite de perturbations mineures préservant la sémantique en entrée. La robustesse face à de telles perturbations est une propriété souhaitable. Par conséquent, un score de robustesse sémantique faible indique que votre modèle fonctionne bien.

Les types de perturbations que nous allons prendre en compte sont les suivants : conversion de l’ensemble du texte en minuscules, fautes de frappe clavier, conversion des nombres en mots, mises en majuscules aléatoires et ajout/suppression aléatoires d’espaces blancs. Chaque requête contenue dans votre jeu de données est perturbée à environ 5 reprises. Ensuite, chaque réponse perturbée est envoyée pour inférence et est utilisée pour calculer automatiquement les scores de robustesse.
Toxicité : pour cette métrique, la valeur est calculée à partir de la toxicité résultant de l’algorithme de détoxification. Une faible valeur de toxicité indique que le modèle sélectionné ne produit pas de grandes quantités de contenu toxique. Pour en savoir plus sur l'algorithme de détoxification et voir comment la toxicité est calculée, consultez l'algorithme de détoxification sur. GitHub

Mode de calcul de chaque métrique disponible lorsqu’elle est appliquée à une tâche de type résumé de texte

Précision : pour cette métrique, la valeur est calculée à l'aide du BERT score. BERTLe score est calculé à l'aide d'intégrations contextuelles préentraînées issues de modèles. BERT Il met en correspondance les mots contenus dans les phrases candidates et les phrases de référence par similarité cosinus.
Robustesse : pour cette métrique, la valeur calculée est un pourcentage. Il est calculé en prenant (DeltaBERTScore/BERTScore) x 100. Delta BERTScore est la différence de BERT scores entre une invite perturbée et l'invite d'origine dans votre ensemble de données. Chaque requête contenue dans votre jeu de données est perturbée à environ 5 reprises. Ensuite, chaque réponse perturbée est envoyée pour inférence et est utilisée pour calculer automatiquement les scores de robustesse. Plus le score est faible, plus le modèle sélectionné est robuste.
Toxicité : pour cette métrique, la valeur est calculée à partir de la toxicité résultant de l’algorithme de détoxification. Une faible valeur de toxicité indique que le modèle sélectionné ne produit pas de grandes quantités de contenu toxique. Pour en savoir plus sur l'algorithme de détoxification et voir comment la toxicité est calculée, consultez l'algorithme de détoxification sur. GitHub

Mode de calcul de chaque métrique disponible lorsqu’elle est appliquée à une tâche de type question/réponse

Précision : pour cette métrique, la valeur calculée est un score F1. Le score F1 est calculé en divisant le score de précision (ratio des prédictions correctes par rapport à toutes les prédictions) par le score de rappel (ratio des prédictions correctes par rapport au nombre total de prédictions pertinentes). Le score F1 est compris entre 0 et 1, les valeurs les plus élevées indiquant de meilleures performances.
Robustesse : pour cette métrique, la valeur calculée est un pourcentage. Elle est calculée comme suit : (Delta F1 / F1) x 100. Delta F1 est la différence entre les scores F1 entre une invite perturbée et l'invite d'origine dans votre ensemble de données. Chaque requête contenue dans votre jeu de données est perturbée à environ 5 reprises. Ensuite, chaque réponse perturbée est envoyée pour inférence et est utilisée pour calculer automatiquement les scores de robustesse. Plus le score est faible, plus le modèle sélectionné est robuste.
Toxicité : pour cette métrique, la valeur est calculée à partir de la toxicité résultant de l’algorithme de détoxification. Une faible valeur de toxicité indique que le modèle sélectionné ne produit pas de grandes quantités de contenu toxique. Pour en savoir plus sur l'algorithme de détoxification et voir comment la toxicité est calculée, consultez l'algorithme de détoxification sur. GitHub

Mode de calcul de chaque métrique disponible lorsqu’elle est appliquée à une tâche de type classification de texte

Précision : pour cette métrique, la valeur calculée est la précision. La précision est un score qui compare la classe prédite à son étiquette de vérité terrain. Une précision élevée indique que votre modèle classifie correctement le texte en fonction de l’étiquette de vérité terrain fournie.
Robustesse : pour cette métrique, la valeur calculée est un pourcentage. Il est calculé en prenant (score de précision de classification delta/score de précision de classification) x 100. Le score de précision de classification Delta est la différence entre le score de précision de classification de l'invite perturbée et celui de l'invite d'entrée d'origine. Chaque requête contenue dans votre jeu de données est perturbée à environ 5 reprises. Ensuite, chaque réponse perturbée est envoyée pour inférence et est utilisée pour calculer automatiquement les scores de robustesse. Plus le score est faible, plus le modèle sélectionné est robuste.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Résultats des tâches d’évaluation de modèle

Bulletins humains