Integrierte Prompt-Datensätze Benutzerdefinierte Prompt-Datensätze

Verwenden Sie Prompt-Datensätze für die Modellauswertung in Amazon Bedrock

Um einen automatischen Modellevaluierungsjob zu erstellen, müssen Sie einen Prompt-Datensatz angeben. Die Eingabeaufforderungen werden dann bei der Inferenz mit dem Modell verwendet, das Sie für die Auswertung auswählen. Amazon Bedrock bietet integrierte Datensätze, die für automatische Modellbewertungen verwendet werden können. Alternativ können Sie Ihren eigenen Prompt-Datensatz mitbringen.

In den folgenden Abschnitten erfahren Sie mehr über die verfügbaren integrierten Prompt-Datensätze und die Erstellung von benutzerdefinierten Prompt-Datensätzen.

Verwenden Sie integrierte Prompt-Datensätze für die automatische Modellauswertung in Amazon Bedrock

Amazon Bedrock bietet mehrere integrierte Prompt-Datensätze, die Sie in einem automatischen Auftrag zur Modellbewertung verwenden können. Jeder integrierte Datensatz basiert auf einem Open-Source-Datensatz. Wir haben jeden Open-Source-Datensatz nach dem Zufallsprinzip heruntergerechnet, sodass er nur 100 Eingabeaufforderungen enthält.

Wenn Sie einen automatischen Auftrag zur Modellbewertung erstellen und einen Aufgabentyp auswählen, stellt Ihnen Amazon Bedrock eine Liste mit empfohlenen Metriken zur Verfügung. Für jede Metrik bietet Amazon Bedrock auch empfohlene integrierte Datensätze. Weitere Informationen zu den verfügbaren Aufgabentypen finden Sie unter Aufgabentypen zur Modellevaluierung in Amazon Bedrock.

Voreingenommenheit im offenen Datensatz zur Sprachgenerierung () BOLD: Der Datensatz Bias in Open-ended Language Generation (BOLD) ist ein Datensatz, der Fairness bei der allgemeinen Textgenerierung bewertet und sich auf fünf Bereiche konzentriert: Beruf, Geschlecht, Rasse, religiöse Ideologien und politische Ideologien. Er enthält 23.679 verschiedene Eingabeaufforderungen zur Textgenerierung.
RealToxicityPrompts: RealToxicityPrompts ist ein Datensatz, der die Toxizität bewertet. Es versucht, das Modell dazu zu bringen, rassistische, sexistische oder anderweitig toxische Sprache zu erzeugen. Dieser Datensatz enthält 100.000 verschiedene Eingabeaufforderungen zur Textgenerierung.
T-Rex: Eine groß angelegte Angleichung natürlicher Sprache an Knowledge Base Triples () TREX: TREXist ein Datensatz, der aus Knowledge Base Triples (KBTs) besteht und aus Wikipedia extrahiert wurde. KBTssind eine Art von Datenstruktur, die bei der Verarbeitung natürlicher Sprache (NLP) und der Wissensrepräsentation verwendet wird. Sie bestehen aus einem Subjekt, einem Prädikat und einem Objekt, wobei das Subjekt und das Objekt durch eine Beziehung miteinander verbunden sind. Ein Beispiel für ein Knowledge Base Triple (KBT) ist „George Washington war der Präsident der Vereinigte Staaten“. Das Subjekt ist „George Washington“, das Prädikat ist „war der Präsident von“ und das Objekt ist „der Vereinigten Staaten“.
WikiText2: WikiText2 ist ein HuggingFace Datensatz, der Eingabeaufforderungen enthält, die bei der allgemeinen Textgenerierung verwendet werden.
Gigaword: Der Gigaword-Datensatz besteht aus Schlagzeilen von Nachrichtenartikeln. Dieser Datensatz wird für Textzusammenfassungsaufgaben verwendet.
BoolQ: BoolQ ist ein Datensatz, der aus Ja/Nein-Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.
Natural Questions: Natural Question ist ein Datensatz, der aus echten Benutzerfragen besteht, die eingereicht wurden Google suche.
TriviaQA: TriviaQA ist ein Datensatz, der über 650.000 enthält. question-answer-evidence-triples Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.
Women's E-Commerce Clothing Reviews: Women's E-Commerce Clothing Reviews ist ein Datensatz, der von Kunden verfasste Rezensionen zu Bekleidungsartikeln enthält. Dieser Datensatz wird für Textklassifizierungsaufgaben verwendet.

In der folgenden Tabelle sehen Sie die Liste der verfügbaren Datensätze, gruppiert nach Aufgabentyp. Weitere Informationen zur Berechnung von automatischen Metriken finden Sie unter Überprüfen Sie die Metriken für einen automatisierten Modellevaluierungsjob in Amazon Bedrock (Konsole).

Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock
Aufgabentyp	Metrik	Integrierte Datensätze	Berechnete Metrik
Allgemeine Textgenerierung	Accuracy	TREX	Punktzahl für Wissen aus der realen Welt () RWK
	Robustheit	BOLD	Wortfehlerrate
		TREX
		WikiText2
	Toxizität	RealToxicityPrompts	Toxizität
	Toxizität	BOLD	Toxizität
Textzusammenfassung	Accuracy	Gigaword	BERTScore
	Toxizität	Gigaword	Toxizität
	Robustheit	Gigaword	BERTScore und deltaBERTScore
Frage und Antwort	Accuracy	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustheit	BoolQ	F1 und deltaF1
		NaturalQuestions
		TriviaQA
	Toxizität	BoolQ	Toxizität
		NaturalQuestions
		TriviaQA
Textklassifizierung	Accuracy	Women's Ecommerce Clothing Reviews	Genauigkeit (binäre Genauigkeit aus classification_accuracy_score)
Textklassifizierung	Robustheit	Women's Ecommerce Clothing Reviews	classification_accuracy_score und delta_classification_accuracy_score

Weitere Informationen zu den Anforderungen für die Erstellung und Beispiele von Datensätzen für benutzerdefinierte Eingabeaufforderungen finden Sie unter Verwenden Sie den benutzerdefinierten Prompt-Datensatz für die Modellauswertung in Amazon Bedrock.

Verwenden Sie den benutzerdefinierten Prompt-Datensatz für die Modellauswertung in Amazon Bedrock

Sie können einen benutzerdefinierten Prompt-Datensatz in automatischen Modellevaluierungsjobs erstellen. Datensätze mit benutzerdefinierten Eingabeaufforderungen müssen in Amazon S3 gespeichert werden und das JSON Zeilenformat und die .jsonl Dateierweiterung verwenden. Jede Zeile muss ein gültiges JSON Objekt sein. Ihr Datensatz kann bis zu 1000 Eingabeaufforderungen pro automatischem Auswertungsauftrag enthalten.

Für Jobs, die mit der Konsole erstellt wurden, müssen Sie die Konfiguration von Cross Origin Resource Sharing (CORS) im S3-Bucket aktualisieren. Weitere Informationen zu den erforderlichen CORS Berechtigungen finden Sie unterErforderliche Cross Origin Resource Sharing (CORS) -Berechtigungen für S3-Buckets.

Sie müssen die folgenden Schlüssel und Wertepaare in einem benutzerdefinierten Datensatz verwenden.

prompt: Erforderlich, um die Eingabe für die folgenden Aufgaben anzugeben:
- Die Eingabeaufforderung, auf die Ihr Modell bei der allgemeinen Textgenerierung reagieren sollte.
- Die Frage, die Ihr Modell im Aufgabentyp „Frage und Antwort“ beantworten soll.
- Der Text, den Ihr Modell in der Textzusammenfassungsaufgabe zusammenfassen soll.
- Der Text, den Ihr Modell in Klassifizierungsaufgaben klassifizieren soll.
referenceResponse: Erforderlich, um die Ground-Truth-Antwort anzugeben, anhand derer Ihr Modell für die folgenden Aufgabentypen bewertet wird:
- Die Antwort auf alle Eingabeaufforderungen in Frage- und Antwort-Aufgaben.
- Die Antwort für alle Genauigkeits- und Robustheitsbewertungen.
category: (Optional) Generiert Bewertungsergebnisse für die einzelnen Kategorien.

Beispielsweise erfordert Genauigkeit sowohl die gestellte Frage als auch eine Antwort, anhand derer die Antwort des Modells überprüft werden kann. Verwenden Sie in diesem Beispiel wie folgt den Schlüssel prompt mit dem in der Frage enthaltenen Wert und den Schlüssel referenceResponse mit dem in der Antwort enthaltenen Wert.


{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}

Das vorherige Beispiel ist eine einzelne Zeile einer JSON Zeileneingabedatei, die als Inferenzanforderung an Ihr Modell gesendet wird. Das Modell wird für jeden solchen Datensatz in Ihrem JSON Liniendatensatz aufgerufen. Das folgende Beispiel für eine Dateneingabe bezieht sich auf eine Frage-Antwort-Aufgabe, bei der ein optionaler category-Schlüssel zur Auswertung verwendet wird.


{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Textklassifizierung

Erstellen von Aufträgen