Referenz zu Metriken - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Referenz zu Metriken

In den folgenden Abschnitten werden die Metriken beschrieben, die in Amazon SageMaker Canvas für jeden Modelltyp verfügbar sind.

Metriken für numerische Vorhersagen

Die folgende Liste definiert die Metriken für numerische Vorhersagen in SageMaker Canvas und gibt Ihnen Informationen darüber, wie Sie sie verwenden können.

  • InferenceLatency — Die ungefähre Zeitspanne zwischen der Anforderung einer Modellvorhersage und deren Empfang von einem Echtzeit-Endpunkt, auf dem das Modell bereitgestellt wird. Diese Metrik wird in Sekunden gemessen und ist nur für Modelle verfügbar, die im Ensembling-Modus erstellt wurden.

  • MAE – Mittlerer absoluter Fehler. Im Durchschnitt entspricht die Vorhersage für die Zielspalte +/- {MAE} dem tatsächlichen Wert.

    Misst, wie unterschiedlich die vorhergesagten und tatsächlichen Werte sind, wenn sie über alle Werte gemittelt werden. MAE wird häufig in der numerischen Vorhersage verwendet, um Fehler bei der Modellvorhersage zu verstehen. Wenn die Vorhersagen linear sind, stellt MAE die durchschnittliche Entfernung zwischen einer vorhergesagten Linie und dem tatsächlichen Wert dar. MAE ist definiert als die Summe der absoluten Fehler geteilt durch die Anzahl der Beobachtungen. Die Werte reichen von 0 bis unendlich. Dabei weisen kleinere Zahlen auf eine bessere Anpassung des Modells an die Daten hin.

  • MAPE – Mittlerer absoluter Fehler in Prozent. Im Durchschnitt liegt die Vorhersage für die Zielspalte +/- {MAPE}% vom tatsächlichen Wert entfernt.

    MAPE ist der Mittelwert der absoluten Differenzen zwischen den tatsächlichen Werten und den vorhergesagten oder geschätzten Werten, dividiert durch die tatsächlichen Werte und ausgedrückt als Prozentsatz. Ein niedrigerer MAPE weist auf eine bessere Leistung hin, da dies bedeutet, dass die vorhergesagten oder geschätzten Werte näher an den tatsächlichen Werten liegen.

  • MSE — Mittlerer quadratischer Fehler oder der Durchschnitt der quadrierten Differenzen zwischen den vorhergesagten und den tatsächlichen Werten.

    MSE-Werte sind immer positiv. Je besser ein Modell die tatsächlichen Werte vorhersagen kann, desto kleiner ist der MSE-Wert.

  • R2 – Der Prozentsatz der Differenz in der Zielspalte, der durch die Eingabespalte erklärt werden kann.

    Quantifiziert, inwieweit ein Modell die Varianz einer abhängigen Variablen erklären kann. Die Werte reichen von Eins (1) bis negativ Eins (-1). Höhere Zahlen deuten auf einen höheren Anteil der erklärten Variabilität hin. Werte nahe Null (0) deuten darauf hin, dass nur ein sehr geringer Teil der abhängigen Variablen durch das Modell erklärt werden kann. Negative Werte deuten auf eine schlechte Anpassung hin und darauf, dass das Modell durch eine konstante Funktion (oder eine horizontale Linie) übertroffen wird.

  • RMSE — Quadratischer Mittelwertfehler oder Standardabweichung der Fehler.

    Misst die Quadratwurzel der quadratischen Differenz zwischen vorhergesagten und tatsächlichen Werten und wird über alle Werte gemittelt. Es wird verwendet, um Fehler bei der Modellvorhersage zu verstehen, und es ist eine wichtige Metrik, um auf das Vorhandensein großer Modellfehler und Ausreißer hinzuweisen. Die Werte reichen von Null (0) bis unendlich. Dabei weisen kleinere Zahlen auf eine bessere Anpassung des Modells an die Daten hin. RMSE hängt vom Maßstab ab und sollte nicht zum Vergleich von Datensätzen verschiedener Typen verwendet werden.

Metriken für kategoriale Vorhersagen

Dieser Abschnitt definiert die Metriken für kategoriale Vorhersagen in SageMaker Canvas und gibt Ihnen Informationen darüber, wie Sie sie verwenden können.

Im Folgenden finden Sie eine Liste der verfügbaren Metriken für Vorhersagen in zwei Kategorien:

  • Genauigkeit – Der Prozentsatz der richtigen Vorhersagen.

    Oder das Verhältnis der Anzahl der korrekt vorhergesagten Elemente zur Gesamtzahl der Vorhersagen. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Ein Wert von 1 steht für perfekte Genauigkeit und 0 für vollständige Ungenauigkeit.

  • AUC – Ein Wert zwischen 0 und 1, der angibt, wie gut Ihr Modell die Kategorien in Ihrem Datensatz trennen kann. Ein Wert von 1 gibt an, dass die Kategorien perfekt getrennt werden konnten.

  • BalancedAccuracy — Misst das Verhältnis von genauen Prognosen zu allen Vorhersagen.

    Dieses Verhältnis wird berechnet, nachdem wirklich positive (TP) und True negative Werte (TN) durch die Gesamtzahl der positiven (P) und negativen (N) Werte normalisiert wurden. Es ist wie folgt definiert:0.5*((TP/P)+(TN/N)), mit Werten im Bereich von 0 bis 1. Die ausgewogene Genauigkeitsmetrik bietet ein besseres Maß für die Genauigkeit, wenn sich die Anzahl der positiven oder negativen Ergebnisse in einem unausgewogenen Datensatz stark voneinander unterscheidet, z. B. wenn nur 1% der E-Mails Spam sind.

  • F1 – Ein ausgewogenes Maß für Genauigkeit, das das Klassengleichgewicht berücksichtigt.

    Es ist das harmonische Mittel der Genauigkeits- und Erinnerungswerte, das wie folgt definiert ist:. F1 = 2 * (precision * recall) / (precision + recall) Die F1-Werte variieren zwischen 0 und 1. Ein Wert von 1 steht für die bestmögliche Leistung und 0 für die schlechteste.

  • InferenceLatency — Die ungefähre Zeitspanne zwischen der Anforderung einer Modellvorhersage und deren Empfang von einem Echtzeit-Endpunkt, auf dem das Modell bereitgestellt wird. Diese Metrik wird in Sekunden gemessen und ist nur für Modelle verfügbar, die im Ensembling-Modus erstellt wurden.

  • LogLoss — Der Logverlust, auch bekannt als Kreuzentropieverlust, ist eine Metrik, die zur Bewertung der Qualität der Wahrscheinlichkeitsausgaben und nicht der Ergebnisse selbst verwendet wird. Der Protokollverlust ist eine wichtige Kennzahl, die angibt, wann ein Modell mit hoher Wahrscheinlichkeit falsche Voraussagen trifft. Werte liegen zwischen 0 und unendlich. Ein Wert von 0 steht für ein Modell, das die Daten perfekt vorhersagt.

  • Genauigkeit — Von allen Fällen, in denen {Kategorie x} vorhergesagt wurde, war die Vorhersage in% der Fälle korrekt {Genauigkeit}.

    Mit der Präzision wird gemessen, wie gut ein Algorithmus unter allen von ihm identifizierten positiven Ergebnissen die wirklich positiven Ergebnisse (TP) voraussagt. Sie ist wie folgt definiert:Precision = TP/(TP+FP), mit Werten im Bereich von Null (0) bis Eins (1). Präzision ist eine wichtige Kennzahl, wenn die Kosten eines falsch positiven Ergebnisses hoch sind. Die Kosten eines falsch positiven Ergebnisses sind beispielsweise sehr hoch, wenn ein Flugzeugsicherheitssystem fälschlicherweise als flugsicher eingestuft wird. Ein falsch positives Ergebnis (FP) spiegelt eine positive Voraussage wider, die in den Daten tatsächlich negativ ist.

  • Rückruf — Das Modell hat korrekt vorausgesagt, dass {recall}% {category x} sein würde, obwohl {target_column} tatsächlich {category x} war.

    Der Erinnerungswert misst, wie gut ein Algorithmus alle wirklich positiven Ergebnisse (TP) in einem Datensatz korrekt voraussagt. Ein wirklich positives Ergebnis ist eine positive Voraussage, die auch einen tatsächlich positiver Wert in den Daten darstellt. Recall ist wie folgt definiert:Recall = TP/(TP+FN), mit Werten im Bereich von 0 bis 1. Höhere Werte spiegeln die bessere Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) in den Daten vorauszusagen. Beachten Sie, dass es oft nicht ausreicht, nur den Erinnerungswert zu messen, da die Vorhersage jedes Outputs als wirklich positiv zu bewerten ist, zu einem perfekten Erinnerungswert führt.

Im Folgenden finden Sie eine Liste der verfügbaren Metriken für die Vorhersage von mehr als einer Kategorie:

  • Genauigkeit – Der Prozentsatz der richtigen Vorhersagen.

    Oder das Verhältnis der Anzahl der korrekt vorhergesagten Elemente zur Gesamtzahl der Vorhersagen. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Ein Wert von 1 steht für perfekte Genauigkeit und 0 für vollständige Ungenauigkeit.

  • BalancedAccuracy — Misst das Verhältnis von genauen Prognosen zu allen Vorhersagen.

    Dieses Verhältnis wird berechnet, nachdem wirklich positive (TP) und True negative Werte (TN) durch die Gesamtzahl der positiven (P) und negativen (N) Werte normalisiert wurden. Es ist wie folgt definiert:0.5*((TP/P)+(TN/N)), mit Werten im Bereich von 0 bis 1. Die ausgewogene Genauigkeitsmetrik bietet ein besseres Maß für die Genauigkeit, wenn sich die Anzahl der positiven oder negativen Ergebnisse in einem unausgewogenen Datensatz stark voneinander unterscheidet, z. B. wenn nur 1% der E-Mails Spam sind.

  • F1Macro — Die F1-Makro-Punktzahl wendet die F1-Bewertung an, indem sie die Genauigkeit und den Erinnerungswert berechnet und dann anhand des harmonischen Mittelwerts den F1-Wert für jede Klasse berechnet. Anschließend berechnet das F1Macro den Durchschnitt der Einzelwerte, um den F1Makro-Score zu erhalten. Die F1Macro-Werte variieren zwischen 0 und 1. Ein Wert von 1 steht für die bestmögliche Leistung und 0 für die schlechteste.

  • InferenceLatency — Die ungefähre Zeitspanne zwischen der Anforderung einer Modellvorhersage und deren Empfang von einem Echtzeit-Endpunkt, auf dem das Modell bereitgestellt wird. Diese Metrik wird in Sekunden gemessen und ist nur für Modelle verfügbar, die im Ensembling-Modus erstellt wurden.

  • LogLoss — Der Logverlust, auch bekannt als Kreuzentropieverlust, ist eine Metrik, die zur Bewertung der Qualität der Wahrscheinlichkeitsausgaben und nicht der Ergebnisse selbst verwendet wird. Der Protokollverlust ist eine wichtige Kennzahl, die angibt, wann ein Modell mit hoher Wahrscheinlichkeit falsche Voraussagen trifft. Werte liegen zwischen 0 und unendlich. Ein Wert von 0 steht für ein Modell, das die Daten perfekt vorhersagt.

  • PrecisionMacro — Misst die Genauigkeit, indem die Genauigkeit für jede Klasse berechnet und der Durchschnitt der Ergebnisse gebildet wird, um die Genauigkeit für mehrere Klassen zu ermitteln. Die Punktzahlen reichen von Null (0) bis Eins (1). Höhere Werte spiegeln die Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) aus allen identifizierten positiven Ergebnissen vorauszusagen, wobei der Durchschnitt über mehrere Klassen hinweg berechnet wird.

  • RecallMacro — Misst den Erinnerungswert, indem der Erinnerungswert für jede Klasse berechnet und der Durchschnitt der Ergebnisse gebildet wird, um den Erinnerungswert für mehrere Klassen zu ermitteln. Die Punktzahlen reichen von 0 bis 1. Höhere Werte spiegeln die Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) in einem Datensatz vorauszusagen, wohingegen ein wirklich positives Ergebnis eine positive Voraussage widerspiegelt, die auch ein tatsächlich positiver Wert in den Daten ist. Oft reicht es nicht aus, nur den Erinnerungswert zu messen, da die Voraussage jeder Ausgabe als wirklich positiv zu einem perfekten Erinnerungswert führen wird.

Beachten Sie, dass Sie bei Vorhersagen für Kategorien ab 3 oder mehr auch die durchschnittlichen Werte F1, Genauigkeit, Präzision und Rückruf erhalten. Bei den Punktzahlen für diese Metriken handelt es sich lediglich um die Durchschnittswerte aller Kategorien.

Metriken für die Bild- und Textvorhersage

Im Folgenden finden Sie eine Liste der verfügbaren Metriken für die Bild- und Textvorhersage.

  • Genauigkeit – Der Prozentsatz der richtigen Vorhersagen.

    Oder das Verhältnis der Anzahl der korrekt vorhergesagten Elemente zur Gesamtzahl der Vorhersagen. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Ein Wert von 1 steht für perfekte Genauigkeit und 0 für vollständige Ungenauigkeit.

  • F1 – Ein ausgewogenes Maß für Genauigkeit, das das Klassengleichgewicht berücksichtigt.

    Dies ist das harmonische Mittel der Genauigkeits- und Erinnerungswerte, wie folgt definiert:. F1 = 2 * (precision * recall) / (precision + recall) Die F1-Werte variieren zwischen 0 und 1. Ein Wert von 1 steht für die bestmögliche Leistung und 0 für die schlechteste.

  • Präzision — Von allen Fällen, in denen {Kategorie x} vorhergesagt wurde, war die Vorhersage in% der Fälle korrekt {Genauigkeit}.

    Mit der Präzision wird gemessen, wie gut ein Algorithmus unter allen von ihm identifizierten positiven Ergebnissen die wirklich positiven Ergebnisse (TP) voraussagt. Sie ist wie folgt definiert:Precision = TP/(TP+FP), mit Werten im Bereich von Null (0) bis Eins (1). Präzision ist eine wichtige Kennzahl, wenn die Kosten eines falsch positiven Ergebnisses hoch sind. Die Kosten eines falsch positiven Ergebnisses sind beispielsweise sehr hoch, wenn ein Flugzeugsicherheitssystem fälschlicherweise als flugsicher eingestuft wird. Ein falsch positives Ergebnis (FP) spiegelt eine positive Voraussage wider, die in den Daten tatsächlich negativ ist.

  • Rückruf — Das Modell hat korrekt vorausgesagt, dass {recall}% {category x} sein würde, obwohl {target_column} tatsächlich {category x} war.

    Der Erinnerungswert misst, wie gut ein Algorithmus alle wirklich positiven Ergebnisse (TP) in einem Datensatz korrekt voraussagt. Ein wirklich positives Ergebnis ist eine positive Voraussage, die auch einen tatsächlich positiver Wert in den Daten darstellt. Recall ist wie folgt definiert:Recall = TP/(TP+FN), mit Werten im Bereich von 0 bis 1. Höhere Werte spiegeln die bessere Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) in den Daten vorauszusagen. Beachten Sie, dass es oft nicht ausreicht, nur den Erinnerungswert zu messen, da die Vorhersage jedes Outputs als wirklich positiv zu bewerten ist, zu einem perfekten Erinnerungswert führt.

Beachten Sie, dass Sie bei Bild- und Textvorhersagemodellen, bei denen Sie 3 oder mehr Kategorien vorhersagen, auch die durchschnittlichen Kennzahlen F1, Genauigkeit, Präzision und Erinnerung erhalten. Bei den Punktzahlen für diese Metriken handelt es sich lediglich um Durchschnittswerte für alle Kategorien.

Metriken für Zeitreihenprognosen

Im Folgenden werden die erweiterten Metriken für Zeitreihenprognosen in Amazon SageMaker Canvas definiert und Sie erhalten Informationen darüber, wie Sie sie verwenden können.

  • Average Weighted Quantile Loss (wQL) – Wertet die Prognose aus, indem der Durchschnitt der Genauigkeit anhand der Quantile P10, P50 und P90 berechnet wird. Ein niedrigerer Wert bedeutet ein genaueres Modell.

  • Weighted Absolute Percent Error (WAPE) — Die Summe des absoluten Fehlers, normalisiert durch die Summe des absoluten Ziels, mit dem die Gesamtabweichung der prognostizierten Werte von den beobachteten Werten gemessen wird. Ein niedrigerer Wert steht für ein genaueres Modell, wobei WAPE = 0 ein Modell ohne Fehler ist.

  • Root Mean Square Error (RMSE) – Die Quadratwurzel der durchschnittlichen quadratischen Fehler. Ein niedrigerer RMSE steht für ein genaueres Modell, wobei RMSE = 0 für ein Modell ohne Fehler steht.

  • Mean Absolute Percent Error (MAPE) – Der prozentuale Fehler (prozentuale Differenz zwischen dem mittleren prognostizierten Wert und dem tatsächlichen Wert), der über alle Zeitpunkte gemittelt wird. Ein niedrigerer Wert steht für ein genaueres Modell, wobei MAPE = 0 ein Modell ohne Fehler ist.

  • Mean Absolute Scaled Error (MASE) – Der mittlere absolute Fehler der Prognose, normalisiert durch den mittleren absoluten Fehler einer einfachen Basisprognosemethode. Ein niedrigerer Wert weist auf ein genaueres Modell hin, bei dem MASE < 1 is estimated to be better than the baseline and MASE > 1 als schlechter eingeschätzt wird als der Basiswert.