Überprüfen Sie die Metriken für einen automatisierten Modellevaluierungsjob in Amazon Bedrock (Konsole)

Sie können die in einem Bericht enthaltenen Kennzahlen für einen automatischen Modellevaluierungsjob mithilfe der Amazon Bedrock-Konsole überprüfen.

Auf Ihrem Bericht über die Modellbewertung sehen Sie die Gesamtzahl der Eingabeaufforderungen in dem Datensatz, den Sie bereitgestellt oder ausgewählt haben, und wie viele dieser Eingabeaufforderungen beantwortet wurden. Wenn die Anzahl der Antworten kleiner als die Anzahl der Eingabeaufforderungen ist, überprüfen Sie unbedingt die Datenausgabedatei in Ihrem Amazon-S3-Bucket. Es ist möglich, dass die Eingabeaufforderung einen Fehler im Modell verursacht hat und keine Inferenz abgerufen wurde. Für metrische Berechnungen werden nur Antworten aus dem Modell verwendet.

Gehen Sie wie folgt vor, um einen automatischen Auftrag zur Modellbewertung auf der Amazon-Bedrock-Konsole zu überprüfen.

Öffnen Sie die Amazon-Bedrock-Konsole.
Wählen Sie im Navigationsbereich die Option Modellbewertung.
Suchen Sie als Nächstes in der Tabelle Modellbewertungen den Namen des automatisierten Auftrags zur Modellbewertung, den Sie überprüfen möchten. Wählen Sie ihn anschließend aus.

Bei allen Kennzahlen zur semantischen Robustheit stört Amazon Bedrock Eingabeaufforderungen auf folgende Weise: Text in Kleinbuchstaben umwandeln, Tippfehler auf der Tastatur, Umwandlung von Zahlen in Wörter, zufällige Änderungen in Großbuchstaben und zufällige Leerzeichen. addition/deletion

Nachdem Sie den Bericht über die Modellbewertung geöffnet haben, können Sie die zusammengefassten Metriken und die Zusammenfassung der Auftragskonfiguration des Auftrags anzeigen.

Für jeden Metrik- und Prompt-Datensatz, der bei der Erstellung des Auftrags angegeben wurde, wird eine Karte angezeigt und für jeden Datensatz, der für diese Metrik angegeben wurde, wird ein Wert eingeblendet. Die Art und Weise, wie dieser Wert berechnet wird, hängt vom Aufgabentyp und den ausgewählten Metriken ab.

Die Berechnungsmethode jeder verfügbaren Metrik, wenn sie auf den allgemeinen Aufgabentyp zur Textgenerierung angewendet wird

Genauigkeit: Für diese Metrik wird der Wert anhand des Real World Knowledge Score (RWK-Score) berechnet. Der RWK-Score untersucht die Fähigkeit des Modells, Faktenwissen über die reale Welt zu kodieren. Ein hoher RWK-Wert bedeutet, dass Ihr Modell korrekt ist.
Robustheit: Für diese Metrik wird der Wert anhand der semantischen Robustheit berechnet. Diese wird anhand der Wortfehlerrate berechnet. Semantische Robustheit misst die Änderungen der Modellausgabe infolge kleinerer Störungen in der Eingabe ohne Auswirkungen auf die Semantik. Robustheit gegenüber solchen Störungen ist eine wünschenswerte Eigenschaft. Daher deutet ein niedriger Wert für die semantische Robustheit darauf hin, dass Ihr Modell eine gute Leistung erbringt.

Wir werden folgende Störungstypen berücksichtigen: Text in Kleinbuchstaben umwandeln, Tippfehler auf der Tastatur, Umwandlung von Zahlen in Wörter, zufällige Änderungen in Großbuchstaben und zufällige Leerzeichen. addition/deletion Jede Eingabeaufforderung in Ihrem Datensatz wird ungefähr fünfmal gestört. Anschließend wird jede gestörte Antwort zur Inferenz gesendet und zur automatischen Berechnung der Robustheitswerte verwendet.
Toxizität: Für diese Metrik wird der Wert anhand der Toxizität aus dem Detoxify-Algorithmus berechnet. Ein niedriger Toxizitätswert weist darauf hin, dass das von Ihnen gewählte Modell keine großen Mengen toxischer Inhalte erzeugt. Weitere Informationen zum Entgiftungsalgorithmus und zur Berechnung der Toxizität finden Sie unter dem Entgiftungsalgorithmus unter. GitHub

Die Berechnungsmethode jeder verfügbaren Metrik, wenn sie auf den Aufgabentyp zur Textzusammenfassung angewendet wird

Genauigkeit: Für diese Metrik wird der Wert anhand des BERT-Scores berechnet. Der BERT-Score wird anhand vorab trainierter kontextueller Einbettungen aus BERT-Modellen berechnet. Er ordnet Wörter in Kandidaten- und Referenzsätzen nach Kosinus-Ähnlichkeit zu.
Robustheit: Bei dieser Metrik ist der berechnete Wert ein Prozentsatz. Er wird berechnet, indem man (Delta BERTScore /BERTScore) x 100 nimmt. Delta BERTScore ist der Unterschied in den BERT-Werten zwischen einer gestörten Eingabeaufforderung und der ursprünglichen Eingabeaufforderung in Ihrem Datensatz. Jede Eingabeaufforderung in Ihrem Datensatz wird ungefähr fünfmal gestört. Anschließend wird jede gestörte Antwort zur Inferenz gesendet und zur automatischen Berechnung der Robustheitswerte verwendet. Je niedriger der Wert, desto robuster das ausgewählte Modell.
Toxizität: Für diese Metrik wird der Wert anhand der Toxizität aus dem Detoxify-Algorithmus berechnet. Ein niedriger Toxizitätswert weist darauf hin, dass das von Ihnen gewählte Modell keine großen Mengen toxischer Inhalte erzeugt. Weitere Informationen zum Entgiftungsalgorithmus und zur Berechnung der Toxizität finden Sie unter dem Entgiftungsalgorithmus unter. GitHub

Die Berechnungsmethode jeder verfügbaren Metrik, wenn sie auf den Aufgabentyp „Frage und Antwort“ angewendet wird

Genauigkeit: Für diese Metrik wird der Wert anhand des F1-Scores berechnet. Der F1-Score wird berechnet, indem der Präzisionsscore (das Verhältnis der korrekten Vorhersagen zu allen Vorhersagen) durch den Recall-Score (das Verhältnis der korrekten Vorhersagen zur Gesamtzahl der relevanten Vorhersagen) dividiert wird. Der F1-Score reicht von 0 bis 1, wobei höhere Werte für eine bessere Leistung stehen.
Robustheit: Bei dieser Metrik ist der berechnete Wert ein Prozentsatz. Er wird berechnet, indem (Delta F1/F1) mit 100 multipliziert wird. Delta F1 ist die Differenz der F1-Werte zwischen einer gestörten Eingabeaufforderung und der ursprünglichen Eingabeaufforderung in Ihrem Datensatz. Jede Eingabeaufforderung in Ihrem Datensatz wird ungefähr fünfmal gestört. Anschließend wird jede gestörte Antwort zur Inferenz gesendet und zur automatischen Berechnung der Robustheitswerte verwendet. Je niedriger der Wert, desto robuster das ausgewählte Modell.
Toxizität: Für diese Metrik wird der Wert anhand der Toxizität aus dem Detoxify-Algorithmus berechnet. Ein niedriger Toxizitätswert weist darauf hin, dass das von Ihnen gewählte Modell keine großen Mengen toxischer Inhalte erzeugt. Weitere Informationen zum Entgiftungsalgorithmus und zur Berechnung der Toxizität finden Sie unter dem Entgiftungsalgorithmus unter. GitHub

Die Berechnungsmethode jeder verfügbaren Metrik, wenn sie auf den Aufgabentyp zur Textklassifizierung angewendet wird

Genauigkeit: Für diese Metrik wird der Wert anhand der Genauigkeit berechnet. Die Genauigkeit ist ein Wert, der die vorhergesagte Klasse mit ihrer Ground-Truth-Beschriftung vergleicht. Eine höhere Genauigkeit bedeutet, dass Ihr Modell Text basierend auf der angegebenen Ground-Truth-Beschriftung korrekt klassifiziert.
Robustheit: Bei dieser Metrik ist der berechnete Wert ein Prozentsatz. Er wird berechnet, indem man (Genauigkeitswert für die Delta-Klassifizierung/Genauigkeitswert für die Klassifizierung) x 100 nimmt. Die Genauigkeitsbewertung der Delta-Klassifizierung ist die Differenz zwischen der Klassifikationsgenauigkeit der gestörten Eingabeaufforderung und der ursprünglichen Eingabeaufforderung. Jede Eingabeaufforderung in Ihrem Datensatz wird ungefähr fünfmal gestört. Anschließend wird jede gestörte Antwort zur Inferenz gesendet und zur automatischen Berechnung der Robustheitswerte verwendet. Je niedriger der Wert, desto robuster das ausgewählte Modell.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Berichte und Metriken für die Modellevaluierung

Überprüfen Sie einen Auftrag zur Bewertung eines menschlichen Modells