Verwenden Sie Prompt-Datensätze für die Modellauswertung in Amazon Bedrock - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie Prompt-Datensätze für die Modellauswertung in Amazon Bedrock

Um einen automatischen Modellevaluierungsjob zu erstellen, müssen Sie einen Prompt-Datensatz angeben. Die Eingabeaufforderungen werden dann bei der Inferenz mit dem Modell verwendet, das Sie für die Auswertung auswählen. Amazon Bedrock bietet integrierte Datensätze, die für automatische Modellbewertungen verwendet werden können. Alternativ können Sie Ihren eigenen Prompt-Datensatz mitbringen.

In den folgenden Abschnitten erfahren Sie mehr über die verfügbaren integrierten Prompt-Datensätze und die Erstellung von benutzerdefinierten Prompt-Datensätzen.

Verwenden Sie integrierte Prompt-Datensätze für die automatische Modellauswertung in Amazon Bedrock

Amazon Bedrock bietet mehrere integrierte Prompt-Datensätze, die Sie in einem automatischen Auftrag zur Modellbewertung verwenden können. Jeder integrierte Datensatz basiert auf einem Open-Source-Datensatz. Wir haben jeden Open-Source-Datensatz nach dem Zufallsprinzip heruntergerechnet, sodass er nur 100 Eingabeaufforderungen enthält.

Wenn Sie einen automatischen Auftrag zur Modellbewertung erstellen und einen Aufgabentyp auswählen, stellt Ihnen Amazon Bedrock eine Liste mit empfohlenen Metriken zur Verfügung. Für jede Metrik bietet Amazon Bedrock auch empfohlene integrierte Datensätze. Weitere Informationen zu den verfügbaren Aufgabentypen finden Sie unter Aufgabentypen zur Modellevaluierung in Amazon Bedrock.

Voreingenommenheit im offenen Datensatz zur Sprachgenerierung () BOLD

Der Datensatz Bias in Open-ended Language Generation (BOLD) ist ein Datensatz, der Fairness bei der allgemeinen Textgenerierung bewertet und sich auf fünf Bereiche konzentriert: Beruf, Geschlecht, Rasse, religiöse Ideologien und politische Ideologien. Er enthält 23.679 verschiedene Eingabeaufforderungen zur Textgenerierung.

RealToxicityPrompts

RealToxicityPrompts ist ein Datensatz, der die Toxizität bewertet. Es versucht, das Modell dazu zu bringen, rassistische, sexistische oder anderweitig toxische Sprache zu erzeugen. Dieser Datensatz enthält 100.000 verschiedene Eingabeaufforderungen zur Textgenerierung.

T-Rex: Eine groß angelegte Angleichung natürlicher Sprache an Knowledge Base Triples () TREX

TREXist ein Datensatz, der aus Knowledge Base Triples (KBTs) besteht und aus Wikipedia extrahiert wurde. KBTssind eine Art von Datenstruktur, die bei der Verarbeitung natürlicher Sprache (NLP) und der Wissensrepräsentation verwendet wird. Sie bestehen aus einem Subjekt, einem Prädikat und einem Objekt, wobei das Subjekt und das Objekt durch eine Beziehung miteinander verbunden sind. Ein Beispiel für ein Knowledge Base Triple (KBT) ist „George Washington war der Präsident der Vereinigte Staaten“. Das Subjekt ist „George Washington“, das Prädikat ist „war der Präsident von“ und das Objekt ist „der Vereinigten Staaten“.

WikiText2

WikiText2 ist ein HuggingFace Datensatz, der Eingabeaufforderungen enthält, die bei der allgemeinen Textgenerierung verwendet werden.

Gigaword

Der Gigaword-Datensatz besteht aus Schlagzeilen von Nachrichtenartikeln. Dieser Datensatz wird für Textzusammenfassungsaufgaben verwendet.

BoolQ

BoolQ ist ein Datensatz, der aus Ja/Nein-Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.

Natural Questions

Natural Question ist ein Datensatz, der aus echten Benutzerfragen besteht, die eingereicht wurden Google suche.

TriviaQA

TriviaQA ist ein Datensatz, der über 650.000 enthält. question-answer-evidence-triples Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.

Women's E-Commerce Clothing Reviews

Women's E-Commerce Clothing Reviews ist ein Datensatz, der von Kunden verfasste Rezensionen zu Bekleidungsartikeln enthält. Dieser Datensatz wird für Textklassifizierungsaufgaben verwendet.

In der folgenden Tabelle sehen Sie die Liste der verfügbaren Datensätze, gruppiert nach Aufgabentyp. Weitere Informationen zur Berechnung von automatischen Metriken finden Sie unter Überprüfen Sie die Metriken für einen automatisierten Modellevaluierungsjob in Amazon Bedrock (Konsole).

Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock
Aufgabentyp Metrik Integrierte Datensätze Berechnete Metrik
Allgemeine Textgenerierung Accuracy TREX Punktzahl für Wissen aus der realen Welt () RWK
Robustheit

BOLD

Wortfehlerrate
TREX
WikiText2
Toxizität

RealToxicityPrompts

Toxizität
BOLD
Textzusammenfassung Accuracy Gigaword BERTScore
Toxizität Gigaword Toxizität
Robustheit Gigaword BERTScore und deltaBERTScore
Frage und Antwort Accuracy BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustheit BoolQ F1 und deltaF1
NaturalQuestions
TriviaQA
Toxizität BoolQ Toxizität
NaturalQuestions
TriviaQA
Textklassifizierung Accuracy Women's Ecommerce Clothing Reviews Genauigkeit (binäre Genauigkeit aus classification_accuracy_score)
Robustheit Women's Ecommerce Clothing Reviews

classification_accuracy_score und delta_classification_accuracy_score

Weitere Informationen zu den Anforderungen für die Erstellung und Beispiele von Datensätzen für benutzerdefinierte Eingabeaufforderungen finden Sie unter Verwenden Sie den benutzerdefinierten Prompt-Datensatz für die Modellauswertung in Amazon Bedrock.

Verwenden Sie den benutzerdefinierten Prompt-Datensatz für die Modellauswertung in Amazon Bedrock

Sie können einen benutzerdefinierten Prompt-Datensatz in automatischen Modellevaluierungsjobs erstellen. Datensätze mit benutzerdefinierten Eingabeaufforderungen müssen in Amazon S3 gespeichert werden und das JSON Zeilenformat und die .jsonl Dateierweiterung verwenden. Jede Zeile muss ein gültiges JSON Objekt sein. Ihr Datensatz kann bis zu 1000 Eingabeaufforderungen pro automatischem Auswertungsauftrag enthalten.

Für Jobs, die mit der Konsole erstellt wurden, müssen Sie die Konfiguration von Cross Origin Resource Sharing (CORS) im S3-Bucket aktualisieren. Weitere Informationen zu den erforderlichen CORS Berechtigungen finden Sie unterErforderliche Cross Origin Resource Sharing (CORS) -Berechtigungen für S3-Buckets.

Sie müssen die folgenden Schlüssel und Wertepaare in einem benutzerdefinierten Datensatz verwenden.

  • prompt: Erforderlich, um die Eingabe für die folgenden Aufgaben anzugeben:

    • Die Eingabeaufforderung, auf die Ihr Modell bei der allgemeinen Textgenerierung reagieren sollte.

    • Die Frage, die Ihr Modell im Aufgabentyp „Frage und Antwort“ beantworten soll.

    • Der Text, den Ihr Modell in der Textzusammenfassungsaufgabe zusammenfassen soll.

    • Der Text, den Ihr Modell in Klassifizierungsaufgaben klassifizieren soll.

  • referenceResponse: Erforderlich, um die Ground-Truth-Antwort anzugeben, anhand derer Ihr Modell für die folgenden Aufgabentypen bewertet wird:

    • Die Antwort auf alle Eingabeaufforderungen in Frage- und Antwort-Aufgaben.

    • Die Antwort für alle Genauigkeits- und Robustheitsbewertungen.

  • category: (Optional) Generiert Bewertungsergebnisse für die einzelnen Kategorien.

Beispielsweise erfordert Genauigkeit sowohl die gestellte Frage als auch eine Antwort, anhand derer die Antwort des Modells überprüft werden kann. Verwenden Sie in diesem Beispiel wie folgt den Schlüssel prompt mit dem in der Frage enthaltenen Wert und den Schlüssel referenceResponse mit dem in der Antwort enthaltenen Wert.

{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }

Das vorherige Beispiel ist eine einzelne Zeile einer JSON Zeileneingabedatei, die als Inferenzanforderung an Ihr Modell gesendet wird. Das Modell wird für jeden solchen Datensatz in Ihrem JSON Liniendatensatz aufgerufen. Das folgende Beispiel für eine Dateneingabe bezieht sich auf eine Frage-Antwort-Aufgabe, bei der ein optionaler category-Schlüssel zur Auswertung verwendet wird.

{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}