Überprüfen Sie einen Auftrag zur Bewertung eines Modells am Menschen in Amazon Bedrock (Konsole) - Amazon Bedrock

Likert-Skala, Vergleich mehrerer Modellergebnisse Auswahlschaltflächen (Optionsfeld)Ordinaler Rang Daumen hoch/runter Likert-Skala, Bewertung einer einzelnen Modellantwort

Überprüfen Sie einen Auftrag zur Bewertung eines Modells am Menschen in Amazon Bedrock (Konsole)

Sie können die in einem Bericht enthaltenen Daten zur Bewertung durch Menschen mithilfe der Amazon Bedrock-Konsole überprüfen.

Auf Ihrem Bericht über die Modellbewertung sehen Sie die Gesamtzahl der Eingabeaufforderungen in dem Datensatz, den Sie bereitgestellt oder ausgewählt haben, und wie viele dieser Eingabeaufforderungen beantwortet wurden. Wenn die Anzahl der Antworten kleiner als die Anzahl der Eingabeaufforderungen mal die Anzahl der Mitarbeiter pro Eingabeaufforderung ist, die Sie für den Auftrag konfiguriert haben (1, 2 oder 3) überprüfen Sie unbedingt die Datenausgabedatei in Ihrem Amazon-S3-Bucket. Es ist möglich, dass die Eingabeaufforderung einen Fehler im Modell verursacht hat und keine Inferenz abgerufen wurde. Eine weitere Möglichkeit ist, dass einer oder mehrere Ihrer Mitarbeiter es abgelehnt haben, eine Antwort auf die Modellausgabe auszuwerten. Für metrische Berechnungen werden nur Antworten von Mitarbeitern verwendet.

Gehen Sie wie folgt vor, um eine Modellbewertung, für die Mitarbeiter eingesetzt werden, auf der Amazon-Bedrock-Konsole zu öffnen.

Öffnen Sie die Amazon-Bedrock-Konsole.
Wählen Sie im Navigationsbereich die Option Modellbewertung.
Suchen Sie als Nächstes in der Tabelle Modellbewertungen den Namen des Auftrag zur Modellbewertung, den Sie überprüfen möchten. Wählen Sie ihn anschließend aus.

Der Bericht über die Modellbewertung bietet anhand von Berichten Einblick in die Daten, die während einer menschlichen Auswertung gesammelt wurden. Jeder Bericht enthält die Metrik, die Beschreibung und die Bewertungsmethode sowie eine Datenvisualisierung, in der die für die jeweilige Metrik gesammelten Daten dargestellt werden.

In jedem der folgenden Abschnitte finden Sie ein Beispiel für die 5 möglichen Bewertungsmethoden, die Ihr Arbeitsteam in der Auswertungsoberfläche gesehen hat. Die Beispiele zeigen auch, welches Schlüssel-Wert-Paar verwendet wird, um die Ergebnisse in Amazon S3 zu speichern.

Likert-Skala, Vergleich mehrerer Modellergebnisse

Menschliche Gutachter geben auf einer 5-Punkte-Likert-Skala gemäß Ihren Anweisungen ihre Präferenz zwischen den beiden Antworten aus dem Modell an. Die Ergebnisse im Abschlussbericht werden als Histogramm der Präferenzbewertungen der Bewerter für Ihren gesamten Datensatz angezeigt.

Stellen Sie sicher, dass Sie in Ihren Anweisungen die wichtigen Punkte der 5-Punkte-Skala definieren, damit Ihre Bewerter wissen, wie sie die Antworten erwartungsgemäß bewerten können.

Dies ist mein Image.

JSONAusgang

Unter dem ersten untergeordneten Schlüssel evaluationResults wird die gewählte Bewertungsmethode zurückgegeben. In der Ausgabedatei, die in Ihrem Amazon-S3-Bucket gespeichert ist, werden die Ergebnisse der einzelnen Mitarbeiter im "evaluationResults": "comparisonLikertScale"-Schlüssel-Wert-Paar gespeichert.

Auswahlschaltflächen (Optionsfeld)

Mithilfe der Auswahlschaltflächen können Bewerter eine Antwort anstelle einer anderen auswählen. Die Gutachter geben anhand von Optionsfeldern an, welche von zwei Antworten sie gemäß Ihren Anweisungen bevorzugen. Die Ergebnisse im Abschlussbericht werden als Prozentsatz der Antworten ausgewiesen, die die Mitarbeiter für jedes Modell bevorzugt haben. Achten Sie darauf, Ihre Auswertungsmethode in der Anleitung klar zu erläutern.

Dies ist mein Image.

JSONAusgang

Unter dem ersten untergeordneten Schlüssel evaluationResults wird die gewählte Bewertungsmethode zurückgegeben. In der Ausgabedatei, die in Ihrem Amazon-S3-Bucket gespeichert ist, werden die Ergebnisse der einzelnen Mitarbeiter im "evaluationResults": "comparisonChoice"-Schlüssel-Wert-Paar gespeichert.

Ordinaler Rang

Mit einer ordinalen Rangfolge kann ein Bewerter seine bevorzugten Antworten auf eine Eingabeaufforderung entsprechend Ihren Anweisungen in eine Reihenfolge beginnend bei 1 bringen. Die Ergebnisse im Abschlussbericht werden als Histogramm der Bewertungen der Bewerter für den gesamten Datensatz angezeigt. Definieren Sie in Ihren Anweisungen unbedingt, was ein Rang von 1 bedeutet. Dieser Datentyp wird als Präferenzrang bezeichnet.

Dies ist mein Image.

JSONAusgang

Unter dem ersten untergeordneten Schlüssel evaluationResults wird die gewählte Bewertungsmethode zurückgegeben. In der Ausgabedatei, die in Ihrem Amazon-S3-Bucket gespeichert ist, werden die Ergebnisse der einzelnen Mitarbeiter im "evaluationResults": "comparisonRank"-Schlüssel-Wert-Paar gespeichert.

Daumen hoch/runter

Mit der Option „Daumen hoch/runter“ kann ein Bewerter jede Antwort eines Modells entsprechend Ihren Anweisungen als akzeptabel/inakzeptabel einstufen. Die Ergebnisse im Abschlussbericht werden als Prozentsatz der Gesamtzahl der abgegebenen Bewertungen ausgewiesen, die für jedes Modell eine positive Bewertung (Daumen hoch) erhalten haben. Sie können diese Bewertungsmethode für einen Auftrag zur Modellbewertung verwenden, der ein oder mehrere Modelle umfasst. Wenn Sie diese Methode für eine Auswertung mit zwei Modellen verwenden, wird Ihrem Arbeitsteam für jede Modellantwort ein „Daumen hoch/runter“ angezeigt, und im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln aufgeführt. Stellen Sie sicher, dass Sie in Ihren Anweisungen definieren, was akzeptabel ist (d. h. was eine Bewertung mit dem Daumen hoch ist).

Dies ist mein Image.

JSONAusgang

Unter dem ersten untergeordneten Schlüssel evaluationResults wird die gewählte Bewertungsmethode zurückgegeben. In der Ausgabedatei, die in Ihrem Amazon-S3-Bucket gespeichert ist, werden die Ergebnisse der einzelnen Mitarbeiter im "evaluationResults": "thumbsUpDown"-Schlüssel-Wert-Paar gespeichert.

Likert-Skala, Bewertung einer einzelnen Modellantwort

Anhand einer 5-Punkte-Likert-Skala kann ein Bewerter entsprechend Ihrer Anweisungen angeben, inwiefern er die Antwort des Modells befürwortet. Die Ergebnisse im Abschlussbericht werden als Histogramm der 5-Punkte-Bewertungen der Bewerter für Ihren gesamten Datensatz angezeigt. Sie können diese Methode für eine Auswertung eines oder mehrerer Modelle verwenden. Wenn Sie diese Bewertungsmethode für eine Auswertung mit mehr als einem Modell verwenden, wird Ihrem Arbeitsteam für jede Modellantwort eine 5-Punkte-Likert-Skala angezeigt, und im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln aufgeführt. Stellen Sie sicher, dass Sie in Ihren Anweisungen die wichtigen Punkte der 5-Punkte-Skala definieren, damit Ihre Bewerter wissen, wie sie die Antworten erwartungsgemäß bewerten können.

Dies ist mein Image.

JSONAusgang

Unter dem ersten untergeordneten Schlüssel evaluationResults wird die gewählte Bewertungsmethode zurückgegeben. In der Ausgabedatei, die in Ihrem Amazon-S3-Bucket gespeichert ist, werden die Ergebnisse der einzelnen Mitarbeiter im "evaluationResults": "individualLikertScale"-Schlüssel-Wert-Paar gespeichert.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Überprüfen Sie die Metriken für einen automatisierten Modellevaluierungsjob

Verstehen Sie die Amazon S3 S3-Ausgabe eines Modellevaluierungsjobs