Regressionsmetriken Metriken zur binären Klassifizierung Mehrklassen-Metriken Überwachung der Qualitätsmetriken von Modellen mit CloudWatch

Modellqualitätsmetriken und CloudWatch Amazon-Überwachung

Jobs zur Überwachung der Modellqualität berechnen verschiedene Metriken, um die Qualität und Leistung Ihrer Machine-Learning-Modelle zu bewerten. Welche spezifischen Metriken berechnet werden, hängt von der Art des ML-Problems ab: Regression, binäre Klassifizierung oder Klassifikation mit mehreren Klassen. Die Überwachung dieser Metriken ist entscheidend für die Erkennung von Modellabweichungen im Laufe der Zeit. In den folgenden Abschnitten werden die wichtigsten Kennzahlen zur Modellqualität für jeden Problemtyp beschrieben. Außerdem erfahren Sie, wie Sie automatische Überwachungs- und Warnmeldungen einrichten, mit denen CloudWatch Sie die Leistung Ihres Modells kontinuierlich verfolgen können.

Anmerkung

Die Standardabweichung für Metriken wird nur angegeben, wenn mindestens 200 Stichproben verfügbar sind. Model Monitor berechnet die Standardabweichung, indem 80% der Daten fünfmal nach dem Zufallsprinzip ausgewählt werden, die Metrik berechnet und die Standardabweichung für diese Ergebnisse verwendet wird.

Regressionsmetriken

Im Folgenden finden Sie ein Beispiel für die Metriken, die Model Quality Monitor für ein Regressionsproblem berechnet.


"regression_metrics" : {
    "mae" : {
      "value" : 0.3711832061068702,
      "standard_deviation" : 0.0037566388129940394
    },
    "mse" : {
      "value" : 0.3711832061068702,
      "standard_deviation" : 0.0037566388129940524
    },
    "rmse" : {
      "value" : 0.609248066149471,
      "standard_deviation" : 0.003079253267651125
    },
    "r2" : {
      "value" : -1.3766111872212665,
      "standard_deviation" : 0.022653980022771227
    }
  }

Metriken zur binären Klassifizierung

Im Folgenden finden Sie ein Beispiel für die Metriken, die Model Quality Monitor für ein binäres Klassifikationsproblem berechnet.


"binary_classification_metrics" : {
    "confusion_matrix" : {
      "0" : {
        "0" : 1,
        "1" : 2
      },
      "1" : {
        "0" : 0,
        "1" : 1
      }
    },
    "recall" : {
      "value" : 1.0,
      "standard_deviation" : "NaN"
    },
    "precision" : {
      "value" : 0.3333333333333333,
      "standard_deviation" : "NaN"
    },
    "accuracy" : {
      "value" : 0.5,
      "standard_deviation" : "NaN"
    },
    "recall_best_constant_classifier" : {
      "value" : 1.0,
      "standard_deviation" : "NaN"
    },
    "precision_best_constant_classifier" : {
      "value" : 0.25,
      "standard_deviation" : "NaN"
    },
    "accuracy_best_constant_classifier" : {
      "value" : 0.25,
      "standard_deviation" : "NaN"
    },
    "true_positive_rate" : {
      "value" : 1.0,
      "standard_deviation" : "NaN"
    },
    "true_negative_rate" : {
      "value" : 0.33333333333333337,
      "standard_deviation" : "NaN"
    },
    "false_positive_rate" : {
      "value" : 0.6666666666666666,
      "standard_deviation" : "NaN"
    },
    "false_negative_rate" : {
      "value" : 0.0,
      "standard_deviation" : "NaN"
    },
    "receiver_operating_characteristic_curve" : {
      "false_positive_rates" : [ 0.0, 0.0, 0.0, 0.0, 0.0, 1.0 ],
      "true_positive_rates" : [ 0.0, 0.25, 0.5, 0.75, 1.0, 1.0 ]
    },
    "precision_recall_curve" : {
      "precisions" : [ 1.0, 1.0, 1.0, 1.0, 1.0 ],
      "recalls" : [ 0.0, 0.25, 0.5, 0.75, 1.0 ]
    },
    "auc" : {
      "value" : 1.0,
      "standard_deviation" : "NaN"
    },
    "f0_5" : {
      "value" : 0.3846153846153846,
      "standard_deviation" : "NaN"
    },
    "f1" : {
      "value" : 0.5,
      "standard_deviation" : "NaN"
    },
    "f2" : {
      "value" : 0.7142857142857143,
      "standard_deviation" : "NaN"
    },
    "f0_5_best_constant_classifier" : {
      "value" : 0.29411764705882354,
      "standard_deviation" : "NaN"
    },
    "f1_best_constant_classifier" : {
      "value" : 0.4,
      "standard_deviation" : "NaN"
    },
    "f2_best_constant_classifier" : {
      "value" : 0.625,
      "standard_deviation" : "NaN"
    }
  }

Mehrklassen-Metriken

Im Folgenden finden Sie ein Beispiel für die Metriken, die Model Quality Monitor für ein Klassifizierungsproblem mit mehreren Klassen berechnet.


"multiclass_classification_metrics" : {
    "confusion_matrix" : {
      "0" : {
        "0" : 1180,
        "1" : 510
      },
      "1" : {
        "0" : 268,
        "1" : 138
      }
    },
    "accuracy" : {
      "value" : 0.6288167938931297,
      "standard_deviation" : 0.00375663881299405
    },
    "weighted_recall" : {
      "value" : 0.6288167938931297,
      "standard_deviation" : 0.003756638812994008
    },
    "weighted_precision" : {
      "value" : 0.6983172269629505,
      "standard_deviation" : 0.006195912915307507
    },
    "weighted_f0_5" : {
      "value" : 0.6803947317178771,
      "standard_deviation" : 0.005328406973561699
    },
    "weighted_f1" : {
      "value" : 0.6571162346664904,
      "standard_deviation" : 0.004385008075019733
    },
    "weighted_f2" : {
      "value" : 0.6384024354394601,
      "standard_deviation" : 0.003867109755267757
    },
    "accuracy_best_constant_classifier" : {
      "value" : 0.19370229007633588,
      "standard_deviation" : 0.0032049848450732355
    },
    "weighted_recall_best_constant_classifier" : {
      "value" : 0.19370229007633588,
      "standard_deviation" : 0.0032049848450732355
    },
    "weighted_precision_best_constant_classifier" : {
      "value" : 0.03752057718081697,
      "standard_deviation" : 0.001241536088657851
    },
    "weighted_f0_5_best_constant_classifier" : {
      "value" : 0.04473443104152011,
      "standard_deviation" : 0.0014460485504284792
    },
    "weighted_f1_best_constant_classifier" : {
      "value" : 0.06286421244683643,
      "standard_deviation" : 0.0019113576884608862
    },
    "weighted_f2_best_constant_classifier" : {
      "value" : 0.10570313141262414,
      "standard_deviation" : 0.002734216826748117
    }
  }

Überwachung der Qualitätsmetriken von Modellen mit CloudWatch

Wenn Sie True bei der Erstellung des Überwachungsplans enable_cloudwatch_metrics den Wert für auf festlegen, senden Jobs zur Überwachung der Modellqualität alle Messwerte an CloudWatch.

Kennzahlen zur Modellqualität werden im folgenden Namespace angezeigt:

Für Echtzeit-Endpunkte: aws/sagemaker/Endpoints/model-metrics
Erstellen Sie Stapeltransformationsaufträge: aws/sagemaker/ModelMonitoring/model-metrics

Eine Liste der ausgegebenen Metriken finden Sie in den vorherigen Abschnitten auf dieser Seite.

Sie können CloudWatch Metriken verwenden, um einen Alarm auszulösen, wenn eine bestimmte Metrik den von Ihnen angegebenen Schwellenwert nicht erreicht. Anweisungen zum Erstellen von CloudWatch Alarmen finden Sie unter Erstellen eines CloudWatch Alarms auf der Grundlage eines statischen Schwellenwerts im CloudWatch Benutzerhandbuch.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Investieren Sie Ground Truth Labels und führen Sie sie mit Vorhersagen zusammen

Überwachen der Biasdrift