Référence des métriques - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Référence des métriques

Les sections suivantes décrivent les métriques disponibles dans Amazon SageMaker Canvas pour chaque type de modèle.

Métriques de prédiction numérique

La liste suivante définit les métriques de prédiction numérique dans SageMaker Canvas et vous donne des informations sur la façon dont vous pouvez les utiliser.

  • InferenceLatency — Le délai approximatif entre l'envoi d'une demande de prédiction du modèle et sa réception d'un point de terminaison en temps réel sur lequel le modèle est déployé. Cette métrique est mesurée en secondes et n'est disponible que pour les modèles construits avec le mode Ensemble.

  • MAE – Erreur absolue moyenne. En moyenne, la prédiction pour la colonne cible est de +/- {MAE} par rapport à la valeur réelle.

    Mesure la différence entre les valeurs prévues et réelles lorsqu'elles sont moyennées sur toutes les valeurs. Le MAE est couramment utilisé dans la prédiction numérique pour comprendre les erreurs de prédiction du modèle. Si les prévisions sont linéaires, MAE représente la distance moyenne entre une ligne prédite et la valeur réelle. La MAE est définie comme la somme des erreurs absolues divisée par le nombre d'observations. Les valeurs sont comprises entre 0 et l'infini, les plus petits nombres indiquant une meilleure adéquation du modèle aux données.

  • MAPE – Erreur moyenne en pourcentage absolu. En moyenne, la prédiction pour la colonne cible est de +/- {MAPE} % par rapport à la valeur réelle.

    MAPE est la moyenne des différences absolues entre les valeurs réelles et les valeurs prévues ou estimées, divisée par les valeurs réelles et exprimée en pourcentage. Un MAPE inférieur indique de meilleures performances, car cela signifie que les valeurs prévues ou estimées sont plus proches des valeurs réelles.

  • MSE — Erreur quadratique moyenne, ou moyenne des différences quadratiques entre les valeurs prévues et réelles.

    Les valeurs MSE sont toujours positives. Plus un modèle est capable de prédire les valeurs réelles, plus la valeur MSE est faible.

  • R2 – Pourcentage de la différence dans la colonne cible qui peut être expliquée par la colonne d'entrée.

    Quantifie dans quelle mesure un modèle peut expliquer la variance d'une variable dépendante. Les valeurs sont comprises entre un (1) et moins un (-1). Des valeurs plus élevées indiquent une fraction plus élevée de la variabilité expliquée. Des valeurs proches de zéro (0) indiquent que très peu de variables dépendantes peuvent être expliquées par le modèle. Les valeurs négatives indiquent un mauvais ajustement et le fait que le modèle est surperformé par une fonction constante (ou une ligne horizontale).

  • RMSE — Erreur quadratique moyenne, ou écart type des erreurs.

    Mesure la racine carrée de la différence entre les valeurs prévues et réelles, et la moyenne est calculée sur toutes les valeurs. Il est utilisé pour comprendre les erreurs de prédiction du modèle, et c'est un indicateur important pour indiquer la présence d'erreurs de modèle importantes et de valeurs aberrantes. Les valeurs vont de zéro (0) à l'infini, les plus petits nombres indiquant une meilleure adéquation du modèle aux données. Le RMSE dépend de l'échelle et ne doit pas être utilisé pour comparer des ensembles de données de différents types.

Métriques pour la prédiction catégorique

Cette section définit les métriques de prédiction catégorique dans SageMaker Canvas et vous donne des informations sur la façon dont vous pouvez les utiliser.

Voici une liste des mesures disponibles pour la prédiction à deux catégories :

  • Accuracy (Prévision) – Le pourcentage de prédictions correctes.

    Ou bien, le rapport entre le nombre d'éléments correctement prédits et le nombre total de prédictions. La précision mesure à quel point les valeurs de classe prédites sont proches des valeurs réelles. Les valeurs des métriques de précision varient entre zéro (0) et un (1). Une valeur de 1 indique une précision parfaite, tandis que 0 indique une imprécision totale.

  • AUC – Valeur comprise entre 0 et 1 qui indique dans quelle mesure votre modèle est capable de séparer les catégories de votre jeu de données. Une valeur 1 indique qu'elle a réussi à séparer parfaitement les catégories.

  • BalancedAccuracy — Mesure le rapport entre les prévisions précises et toutes les prévisions.

    Ce rapport est calculé après avoir normalisé les vrais positifs (TP) et les vrais négatifs (TN) par le nombre total de valeurs positives (P) et négatives (N). Il est défini comme suit :0.5*((TP/P)+(TN/N)), avec des valeurs comprises entre 0 et 1. La métrique de précision équilibrée fournit une meilleure mesure de la précision lorsque le nombre de points positifs ou négatifs est très différent les uns des autres dans un ensemble de données déséquilibré, par exemple lorsque seulement 1 % des e-mails sont du spam.

  • F1 – Mesure équilibrée de la précision qui prend en compte l'équilibre des classes.

    Il s'agit de la moyenne harmonique des scores de précision et de rappel, définie comme suit :F1 = 2 * (precision * recall) / (precision + recall). Les scores de F1 varient entre 0 et 1. Un score de 1 indique la meilleure performance possible et 0 indique la pire.

  • InferenceLatency — Le délai approximatif entre l'envoi d'une demande de prédiction du modèle et sa réception d'un point de terminaison en temps réel sur lequel le modèle est déployé. Cette métrique est mesurée en secondes et n'est disponible que pour les modèles construits avec le mode Ensemble.

  • LogLoss — La perte logarithmique, également appelée perte d'entropie croisée, est une métrique utilisée pour évaluer la qualité des résultats de probabilité, plutôt que les résultats eux-mêmes. La perte logistique est une métrique importante pour indiquer quand un modèle fait des prédictions incorrectes avec des probabilités élevées. Les valeurs vont de 0 à l'infini. Une valeur de 0 représente un modèle qui prédit parfaitement les données.

  • Précision — Parmi toutes les fois où {catégorie x} a été prédite, la prédiction était correcte {précision} % du temps.

    La précision mesure l'efficacité avec laquelle un algorithme prédit les vrais positifs (TP) parmi tous les positifs qu'il identifie. Il est défini comme suit :Precision = TP/(TP+FP), avec des valeurs allant de zéro (0) à un (1). La précision est une métrique importante lorsque le coût d'un faux positif est élevé. Par exemple, le coût d'un faux positif est très élevé si le système de sécurité d'un avion est considéré à tort comme sûr pour le vol. Un faux positif (FP) reflète une prédiction positive qui est en fait négative dans les données.

  • Rappel — Le modèle a correctement prédit que {recall} % était {catégorie x} alors que {target_column} était en fait {catégorie x}.

    Le rappel évalue la capacité d'un algorithme à prédire correctement tous les vrais positifs (TP) dans un jeu de données. Un vrai positif est une prédiction positive qui correspond également à une valeur positive réelle dans les données. Le rappel est défini comme suit :Recall = TP/(TP+FN), avec des valeurs comprises entre 0 et 1. Des scores plus élevés reflètent une meilleure capacité du modèle à prédire les vrais positifs (TP) dans les données. Notez qu'il est souvent insuffisant de mesurer uniquement le rappel, car la prédiction de chaque sortie comme étant réellement positive donne un score de rappel parfait.

Voici une liste des mesures disponibles pour la prédiction de 3 catégories ou plus :

  • Accuracy (Prévision) – Le pourcentage de prédictions correctes.

    Ou bien, le rapport entre le nombre d'éléments correctement prédits et le nombre total de prédictions. La précision mesure à quel point les valeurs de classe prédites sont proches des valeurs réelles. Les valeurs des métriques de précision varient entre zéro (0) et un (1). Une valeur de 1 indique une précision parfaite, tandis que 0 indique une imprécision totale.

  • BalancedAccuracy — Mesure le rapport entre les prévisions précises et toutes les prévisions.

    Ce rapport est calculé après avoir normalisé les vrais positifs (TP) et les vrais négatifs (TN) par le nombre total de valeurs positives (P) et négatives (N). Il est défini comme suit :0.5*((TP/P)+(TN/N)), avec des valeurs comprises entre 0 et 1. La métrique de précision équilibrée fournit une meilleure mesure de la précision lorsque le nombre de points positifs ou négatifs est très différent les uns des autres dans un ensemble de données déséquilibré, par exemple lorsque seulement 1 % des e-mails sont du spam.

  • F1Macro — Le score F1Macro applique le score F1 en calculant la précision et le rappel, puis en utilisant leur moyenne harmonique pour calculer le score F1 pour chaque classe. Ensuite, le F1Macro fait la moyenne des scores individuels pour obtenir le score F1Macro. Les scores F1macro varient entre 0 et 1. Un score de 1 indique la meilleure performance possible, et 0 indique la pire.

  • InferenceLatency — Le délai approximatif entre l'envoi d'une demande de prédiction du modèle et sa réception d'un point de terminaison en temps réel sur lequel le modèle est déployé. Cette métrique est mesurée en secondes et n'est disponible que pour les modèles construits avec le mode Ensemble.

  • LogLoss — La perte logarithmique, également appelée perte d'entropie croisée, est une métrique utilisée pour évaluer la qualité des résultats de probabilité, plutôt que les résultats eux-mêmes. La perte logistique est une métrique importante pour indiquer quand un modèle fait des prédictions incorrectes avec des probabilités élevées. Les valeurs vont de 0 à l'infini. Une valeur de 0 représente un modèle qui prédit parfaitement les données.

  • PrecisionMacro — Mesure la précision en calculant la précision pour chaque classe et en faisant la moyenne des scores pour obtenir de la précision pour plusieurs classes. Les scores vont de zéro (0) à un (1). Des scores plus élevés reflètent la capacité du modèle à prédire les vrais positifs (TP) parmi tous les positifs qu'il identifie, en calculant la moyenne sur plusieurs classes.

  • RecallMacro — Mesure le rappel en calculant le rappel pour chaque classe et en faisant la moyenne des scores pour obtenir le rappel pour plusieurs cours. Les scores vont de 0 à 1. Des scores plus élevés reflètent la capacité du modèle à prédire les vrais positifs (TP) dans un jeu de données, tandis qu'un vrai positif reflète une prédiction positive qui est également une valeur positive réelle dans les données. Il est souvent insuffisant de mesurer uniquement le rappel, car prédire chaque sortie comme un vrai positif donnera un score de rappel parfait.

Notez que pour les prédictions de plus de 3 catégories, vous recevez également les métriques moyennes F1, Accuracy, Precision et Recall. Les scores de ces indicateurs sont simplement les scores métriques moyens pour toutes les catégories.

Métriques pour la prédiction d'images et de textes

Vous trouverez ci-dessous une liste des mesures disponibles pour la prédiction d'images et la prédiction de texte.

  • Accuracy (Prévision) – Le pourcentage de prédictions correctes.

    Ou bien, le rapport entre le nombre d'éléments correctement prédits et le nombre total de prédictions. La précision mesure à quel point les valeurs de classe prédites sont proches des valeurs réelles. Les valeurs des métriques de précision varient entre zéro (0) et un (1). Une valeur de 1 indique une précision parfaite, tandis que 0 indique une imprécision totale.

  • F1 – Mesure équilibrée de la précision qui prend en compte l'équilibre des classes.

    Il s'agit de la moyenne harmonique des scores de précision et de rappel, définie comme suit :F1 = 2 * (precision * recall) / (precision + recall). Les scores de F1 varient entre 0 et 1. Un score de 1 indique la meilleure performance possible et 0 indique la pire.

  • Précision — Parmi toutes les fois où {catégorie x} a été prédite, la prédiction était correcte {précision} % du temps.

    La précision mesure l'efficacité avec laquelle un algorithme prédit les vrais positifs (TP) parmi tous les positifs qu'il identifie. Il est défini comme suit :Precision = TP/(TP+FP), avec des valeurs allant de zéro (0) à un (1). La précision est une métrique importante lorsque le coût d'un faux positif est élevé. Par exemple, le coût d'un faux positif est très élevé si le système de sécurité d'un avion est considéré à tort comme sûr pour le vol. Un faux positif (FP) reflète une prédiction positive qui est en fait négative dans les données.

  • Rappel — Le modèle a correctement prédit que {recall} % était {catégorie x} alors que {target_column} était en fait {catégorie x}.

    Le rappel évalue la capacité d'un algorithme à prédire correctement tous les vrais positifs (TP) dans un jeu de données. Un vrai positif est une prédiction positive qui correspond également à une valeur positive réelle dans les données. Le rappel est défini comme suit :Recall = TP/(TP+FN), avec des valeurs comprises entre 0 et 1. Des scores plus élevés reflètent une meilleure capacité du modèle à prédire les vrais positifs (TP) dans les données. Notez qu'il est souvent insuffisant de mesurer uniquement le rappel, car la prédiction de chaque sortie comme étant réellement positive donne un score de rappel parfait.

Notez que pour les modèles de prédiction d'image et de texte dans lesquels vous prédisez 3 catégories ou plus, vous recevez également les métriques moyennes F1, Accuracy, Precision et Recall. Les scores de ces indicateurs ne sont que la moyenne des scores métriques pour toutes les catégories.

Mesures pour les prédictions de séries temporelles

Ce qui suit définit les mesures avancées pour les prévisions de séries chronologiques dans Amazon SageMaker Canvas et vous explique comment vous pouvez les utiliser.

  • Perte de quantiles pondérées moyenne (wQL) : évalue la prédiction en faisant la moyenne de la précision des quantiles P10, P50 et P90. Une valeur faible indique un modèle plus précis.

  • Pourcentage d'erreur absolu pondéré (WAPE) : somme de l'erreur absolue normalisée par la somme de la cible absolue, qui mesure l'écart global entre les valeurs prévues et les valeurs observées. Une valeur inférieure indique un modèle plus précis, où WAPE = 0 est un modèle sans erreur.

  • Racine carrée de l'erreur quadratique moyenne (RMSE) : racine carrée des erreurs quadratiques moyennes. Une valeur inférieure indique un modèle plus précis, où RMSE = 0 est un modèle sans erreur.

  • Erreur moyenne en pourcentage absolu (MAPE) : erreur en pourcentage (différence en pourcentage de la valeur moyenne prévue par rapport à la valeur réelle) calculée sur tous les points temporels. Une valeur inférieure indique un modèle plus précis, où MAPE = 0 est un modèle sans erreur.

  • Erreur moyenne à l'échelle absolue (MASE) : erreur absolue moyenne de la prédiction normalisée par l'erreur absolue moyenne d'une méthode de prédiction de référence simple. Une valeur inférieure indique un modèle plus précis, où MASE < 1 est estimé comme étant meilleur que la valeur de référence et MASE > 1 est estimé comme étant pire que la valeur de référence.