Verwenden von integrierten Prompt-Datensätzen in automatischen Aufträgen zur Modellbewertung

Amazon Bedrock bietet mehrere integrierte Prompt-Datensätze, die Sie in einem automatischen Auftrag zur Modellbewertung verwenden können. Jeder integrierte Datensatz basiert auf einem Open-Source-Datensatz. Wir haben jeden Open-Source-Datensatz nach dem Zufallsprinzip heruntergesampelt, sodass er nur 100 Eingabeaufforderungen enthält.

Wenn Sie einen automatischen Auftrag zur Modellbewertung erstellen und einen Aufgabentyp auswählen, stellt Ihnen Amazon Bedrock eine Liste mit empfohlenen Metriken zur Verfügung. Für jede Metrik bietet Amazon Bedrock auch empfohlene integrierte Datensätze. Weitere Informationen zu den verfügbaren Aufgabentypen finden Sie unter Aufgaben zur Modellbewertung.

Bias im Datensatz zur Sprachgenerierung mit offenem Ende (Open-ended Language Generation; BOLD): Der Bias in Datensatz zur Sprachgenerierung mit offenem Ende (BOLD) ist ein Datensatz, der die Fairness bei der allgemeinen Textgenerierung bewertet und sich auf fünf Bereiche konzentriert: Beruf, Geschlecht, Rasse, religiöse und politische Ideologie. Er enthält 23.679 verschiedene Eingabeaufforderungen zur Textgenerierung.
RealToxicityPrompts: RealToxicityPrompts ist ein Datensatz, der die Toxizität bewertet. Es versucht, das Modell dazu zu bringen, rassistische, sexistische oder anderweitig toxische Sprache zu erzeugen. Dieser Datensatz enthält 100.000 verschiedene Eingabeaufforderungen zur Textgenerierung.
T-Rex: Eine groß angelegte Angleichung natürlicher Sprache an Knowledge Base Triples (TREX): TREX ist ein Datensatz, der aus Knowledge Base Triples (KBTs) besteht und aus Wikipedia extrahiert wurde. KBTs sind eine Art von Datenstruktur, die bei der Verarbeitung natürlicher Sprache (NLP) und der Wissensdarstellung verwendet wird. Sie bestehen aus einem Subjekt, einem Prädikat und einem Objekt, wobei das Subjekt und das Objekt durch eine Beziehung miteinander verbunden sind. Ein Beispiel für ein Knowledge Base Triple (KBT) ist „George Washington war der Präsident der Vereinigten Staaten“. Das Subjekt ist „George Washington“, das Prädikat ist „war der Präsident von“ und das Objekt ist „der Vereinigten Staaten“.
WikiText2: WikiText2 ist ein HuggingFace Datensatz, der Eingabeaufforderungen enthält, die bei der allgemeinen Textgenerierung verwendet werden.
Gigaword: Der Gigaword-Datensatz besteht aus Schlagzeilen von Nachrichtenartikeln. Dieser Datensatz wird für Textzusammenfassungsaufgaben verwendet.
BoolQ: BoolQ ist ein Datensatz, der aus Ja/Nein-Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.
Natural Questions: Natural Questions ist ein Datensatz, der aus echten Benutzerfragen besteht, die in der Google-Suche eingegeben wurden.
TriviaQA: TriviaQA ist ein Datensatz, der über 650.000 enthält. question-answer-evidence-triples Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.
Women's E-Commerce Clothing Reviews: Women's E-Commerce Clothing Reviews ist ein Datensatz, der von Kunden verfasste Rezensionen zu Bekleidungsartikeln enthält. Dieser Datensatz wird für Textklassifizierungsaufgaben verwendet.

In der folgenden Tabelle sehen Sie die Liste der verfügbaren Datensätze, gruppiert nach Aufgabentyp. Weitere Informationen zur Berechnung von automatischen Metriken finden Sie unter Bericht über automatisierte Aufträge zur Modellbewertung (Konsole).

Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock
Aufgabentyp	Metrik	Integrierte Datensätze	Berechnete Metrik
Allgemeine Textgenerierung	Accuracy	TREX	Bewertung von Wissen aus der realen Welt (Real World Knowledge; RWK)
	Robustheit	BOLD	Wortfehlerrate
		WikiText2
		Wikipedia auf Englisch
	Toxizität	RealToxicityPrompts	Toxizität
	Toxizität	BOLD	Toxizität
Textzusammenfassung	Accuracy	Gigaword	BERTScore
	Toxizität	Gigaword	Toxizität
	Robustheit	Gigaword	BERTScore und deltaBERTScore
Frage und Antwort	Accuracy	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustheit	BoolQ	F1 und deltaF1
		NaturalQuestions
		TriviaQA
	Toxizität	BoolQ	Toxizität
		NaturalQuestions
		TriviaQA
Textklassifizierung	Accuracy	Women's Ecommerce Clothing Reviews	Genauigkeit (binäre Genauigkeit aus classification_accuracy_score)
		Women's Ecommerce Clothing Reviews
		Women's Ecommerce Clothing Reviews
	Robustheit	Women's Ecommerce Clothing Reviews	classification_accuracy_score und delta_classification_accuracy_score

Weitere Informationen zu den Anforderungen für die Erstellung und Beispiele von Datensätzen für benutzerdefinierte Eingabeaufforderungen finden Sie unter Benutzerdefinierter Prompt-Datensatz.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Prompt-Datensätze als Eingabe

Benutzerdefinierte Prompt-Datensätze