Métriques d’évaluation du modèle - Rekognition

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Métriques d’évaluation du modèle

Une fois le modèle formé, Étiquettes personnalisées Amazon Rekognition renvoie les métriques des tests du modèle. Vous pouvez les utiliser pour évaluer les performances du modèle. Cette rubrique décrit les métriques mises à votre disposition et explique comment déterminer si le modèle entraîné fonctionne correctement.

La console Étiquettes personnalisées Amazon Rekognition fournit les métriques suivantes comme résumé des résultats de l’entraînement et comme métriques de chaque étiquette :

Chaque métrique fournie constitue une métrique couramment utilisée pour évaluer les performances d’un modèle de machine learning. Étiquettes personnalisées Amazon Rekognition renvoie les métriques des résultats des tests pour l’ensemble du jeu de données, ainsi que les métriques de chaque étiquette personnalisée. Vous pouvez aussi examiner les performances du modèle entraîné personnalisé pour chaque image du jeu de données des tests. Pour plus d’informations, consultez Accès aux métriques d’évaluation (console).

Évaluation des performances du modèle

Au cours des tests, Étiquettes personnalisées Amazon Rekognition prédit si une image de test contient une étiquette personnalisée. Le score de confiance est une valeur quantifiant la certitude de la prédiction du modèle.

Si le score de confiance d’une étiquette personnalisée dépasse la valeur seuil, la sortie du modèle inclut l’étiquette. Les prédictions peuvent être classées de la manière suivante :

  • Vrai positif : le modèle Étiquettes personnalisées Amazon Rekognition prédit correctement la présence de l’étiquette personnalisée dans l’image de test : l’étiquette prédite est également une étiquette de vérité sur le terrain pour l’image. Par exemple, Étiquettes personnalisées Amazon Rekognition renvoie correctement une étiquette de ballon de football lorsqu’un tel ballon est présent dans une image.

  • Faux positif : le modèle Étiquettes personnalisées Amazon Rekognition prédit incorrectement la présence d’une étiquette personnalisée dans une image de test : l’étiquette prédite n’est pas une étiquette de vérité sur le terrain pour l’image. Par exemple, Étiquettes personnalisées Amazon Rekognition renvoie une étiquette de ballon de football, mais il n’existe aucune étiquette de ballon de football dans la vérité sur le terrain pour l’image.

  • Faux négatif : le modèle Étiquettes personnalisées Amazon Rekognition ne prédit pas la présence d’une étiquette personnalisée dans l’image, mais la vérité sur le terrain de l’image inclut l’étiquette. Par exemple, Étiquettes personnalisées Amazon Rekognition ne renvoie pas d’étiquette personnalisée « ballon de football » pour une image en contenant un.

  • Vrai négatif : le modèle Étiquettes personnalisées Amazon Rekognition prédit correctement qu’une étiquette personnalisée n’est pas présente dans l’image de test. Par exemple, Étiquettes personnalisées Amazon Rekognition ne renvoie pas d’étiquette personnalisée « ballon de football » pour une image n’en contenant pas un.

La console permet d’accéder aux valeurs vrai positif, faux positif et faux négatif pour chaque image du jeu de données des tests. Pour plus d’informations, consultez Accès aux métriques d’évaluation (console).

Les résultats de prédiction permettent de calculer les métriques suivantes de chaque étiquette, ainsi qu’un cumul pour la totalité du jeu de données des tests. Les mêmes définitions s’appliquent aux prédictions faites par le modèle au niveau du cadre de délimitation, à la différence que toutes les métriques sont calculées sur chaque cadre de délimitation (prédiction ou vérité sur le terrain) de chaque image de test.

Intersection sur l’union (IoU, Intersection over Union) et détection d’objets

Intersection sur l’union mesure le pourcentage de chevauchement entre deux cadres de délimitation d’objet sur leur surface combinée. La plage est comprise entre 0 (chevauchement le plus faible) et 1 (chevauchement complet). Pendant le test, un cadre de délimitation prédit est correct si l’Intersection sur l’union entre le cadre de délimitation de la vérité sur le terrain et le cadre de délimitation prédit est au moins de 0,5.

Seuil supposé

Étiquettes personnalisées Amazon Rekognition calcule automatiquement une valeur seuil supposée (0-1) pour chacune des étiquettes personnalisées. Vous ne pouvez pas définir la valeur de seuil supposée pour une étiquette personnalisée. Le seuil supposé de chaque étiquette est la valeur au-dessus de laquelle une prédiction est considérée comme « vrai » ou « faux positif ». Il est défini en fonction du jeu de données des tests. Le seuil supposé est calculé sur la base du meilleur score F1 obtenu sur le jeu de données des tests lors de l’entraînement du modèle.

Vous pouvez obtenir la valeur du seuil supposé d’une étiquette à partir des résultats d’entraînement du modèle. Pour plus d’informations, consultez Accès aux métriques d’évaluation (console).

Les modifications des valeurs de seuil supposées sont généralement utilisées pour améliorer la précision et le rappel d’un modèle. Pour plus d’informations, consultez Amélioration d’un modèle Étiquettes personnalisées Amazon Rekognition. Comme il est impossible de définir le seuil supposé du modèle d’une étiquette, vous pouvez obtenir les mêmes résultats en analysant une image avec DetectCustomLabels et en spécifiant un paramètre d’entrée MinConfidence. Pour plus d’informations, consultez Analyse d’une image avec un modèle entraîné.

Précision

Étiquettes personnalisées Amazon Rekognition fournit les métriques de précision pour chaque étiquette et une métrique de précision moyenne pour la totalité du jeu de données des tests.

La précision est le rapport entre les prédictions correctes (vrais positifs) et toutes les prédictions du modèle (vrais et faux positifs) au seuil supposé d’une étiquette donnée. Si le seuil augmente, il se peut que le modèle propose moins de prédictions. En général, toutefois, le ratio entre les vrais positifs et les faux positifs est plus élevé que le seuil inférieur. Les valeurs de précision possibles sont comprises entre 0 et 1 et les valeurs plus élevées indiquent une précision supérieure.

Par exemple, lorsque le modèle prédit la présence d’un ballon de football dans une image, à quelle fréquence la prédiction est-elle correcte ? Supposons qu’il y ait une image avec 8 ballons de football et 5 rochers. Si le modèle prédit 9 ballons de football (8 correctement prédits et 1 faux positif), la précision de cet exemple est de 0,89. Toutefois, si le modèle a prédit 13 ballons de football sur l’image avec 8 prédictions correctes et 5 incorrectes, la précision obtenue est inférieure.

Pour plus d’informations, consultez Précision et rappel.

Rappel

Étiquettes personnalisées Amazon Rekognition fournit les métriques de rappel moyen de chaque étiquette et une métrique de rappel moyen pour la totalité du jeu de données des tests.

Le rappel est la fraction des étiquettes du jeu de données des tests correctement prédites au-dessus du seuil supposé. Il s’agit d’une mesure de la fréquence à laquelle le modèle peut prédire correctement une étiquette personnalisée lorsqu’elle est réellement présente dans les images du jeu de données des tests. La plage de rappel est comprise entre 0 et 1. Les valeurs plus élevées indiquent un rappel supérieur.

Par exemple, si une image contient 8 ballons de football, combien d’entre eux sont correctement détectés ? Dans l’exemple où une image comporte 8 ballons de football et 5 rochers, si le modèle détecte 5 ballons de football, la valeur de rappel est 0,62. Si, après un réentraînement, le nouveau modèle détecte 9 ballons de football, dont les 8 déjà présents sur l’image, la valeur de rappel est 1,0.

Pour plus d’informations, consultez Précision et rappel.

F1

Étiquettes personnalisées Amazon Rekognition utilise la métrique Score F1 pour mesurer les performances moyennes du modèle de chaque étiquette et les performances moyennes du modèle de la totalité du jeu de données des tests.

La performance du modèle est une mesure de cumul qui prend en compte à la fois la précision et le rappel de toutes les étiquettes (par exemple, le score F1 ou la précision moyenne). Le score de performance du modèle est une valeur comprise entre 0 et 1. Plus la valeur est élevée, meilleures sont les performances du modèle en termes de rappel et de précision. Plus précisément, les performances du modèle pour les tâches de classification sont généralement mesurées par le score F1. Ce score représente la moyenne harmonique des scores de précision et de rappel au seuil supposé. Par exemple, pour un modèle avec une précision de 0,9 et un rappel de 1,0, le score F1 est de 0,947.

Une valeur élevée pour le score F1 indique que le modèle fonctionne bien en termes de précision et de rappel. Si le modèle ne fonctionne pas correctement avec, par exemple, une précision faible de 0,30 et un rappel élevé de 1,0, le score F1 est de 0,46. De même, si la précision est élevée (0,95) et que le rappel est faible (0,20), le score F1 est de 0,33. Dans les deux cas, le score F1 est faible et indique des problèmes liés au modèle.

Pour plus d’informations, consultez Score F1.

Utilisation des métriques

Pour un modèle donné que vous avez entraîné et en fonction de l’application, vous pouvez faire un compromis entre la précision et le rappel en définissant le paramètre d’entrée MinConfidence sur DetectCustomLabels. À une valeur MinConfidence plus élevée, vous obtenez généralement une plus grande précision (plus de prédictions correctes sur les ballons de football), mais un rappel plus bas (le nombre manquant de vrais ballons de football sera plus grand). À une valeur MinConfidence plus basse, vous obtenez un rappel plus élevé (nombre plus élevé de ballons de football correctement prédits), mais une précision moindre (un plus grand nombre de prédictions seront fausses). Pour plus d’informations, consultez Analyse d’une image avec un modèle entraîné.

Les métriques informent également sur les mesures à prendre pour améliorer les performances du modèle si nécessaire. Pour plus d’informations, consultez Amélioration d’un modèle Étiquettes personnalisées Amazon Rekognition.

Note

DetectCustomLabels renvoie les prédictions comprises entre 0 et 100, ce qui correspond à la plage métrique de 0 à 1.