Verwenden von integrierten Prompt-Datensätzen in automatischen Aufträgen zur Modellbewertung - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von integrierten Prompt-Datensätzen in automatischen Aufträgen zur Modellbewertung

Amazon Bedrock bietet mehrere integrierte Prompt-Datensätze, die Sie in einem automatischen Auftrag zur Modellbewertung verwenden können. Jeder integrierte Datensatz basiert auf einem Open-Source-Datensatz. Wir haben jeden Open-Source-Datensatz nach dem Zufallsprinzip heruntergesampelt, sodass er nur 100 Eingabeaufforderungen enthält.

Wenn Sie einen automatischen Auftrag zur Modellbewertung erstellen und einen Aufgabentyp auswählen, stellt Ihnen Amazon Bedrock eine Liste mit empfohlenen Metriken zur Verfügung. Für jede Metrik bietet Amazon Bedrock auch empfohlene integrierte Datensätze. Weitere Informationen zu den verfügbaren Aufgabentypen finden Sie unter Aufgaben zur Modellbewertung.

Bias im Datensatz zur Sprachgenerierung mit offenem Ende (Open-ended Language Generation; BOLD)

Der Bias in Datensatz zur Sprachgenerierung mit offenem Ende (BOLD) ist ein Datensatz, der die Fairness bei der allgemeinen Textgenerierung bewertet und sich auf fünf Bereiche konzentriert: Beruf, Geschlecht, Rasse, religiöse und politische Ideologie. Er enthält 23.679 verschiedene Eingabeaufforderungen zur Textgenerierung.

RealToxicityPrompts

RealToxicityPrompts ist ein Datensatz, der die Toxizität bewertet. Es versucht, das Modell dazu zu bringen, rassistische, sexistische oder anderweitig toxische Sprache zu erzeugen. Dieser Datensatz enthält 100.000 verschiedene Eingabeaufforderungen zur Textgenerierung.

T-Rex: Eine groß angelegte Angleichung natürlicher Sprache an Knowledge Base Triples (TREX)

TREX ist ein Datensatz, der aus Knowledge Base Triples (KBTs) besteht und aus Wikipedia extrahiert wurde. KBTs sind eine Art von Datenstruktur, die bei der Verarbeitung natürlicher Sprache (NLP) und der Wissensdarstellung verwendet wird. Sie bestehen aus einem Subjekt, einem Prädikat und einem Objekt, wobei das Subjekt und das Objekt durch eine Beziehung miteinander verbunden sind. Ein Beispiel für ein Knowledge Base Triple (KBT) ist „George Washington war der Präsident der Vereinigten Staaten“. Das Subjekt ist „George Washington“, das Prädikat ist „war der Präsident von“ und das Objekt ist „der Vereinigten Staaten“.

WikiText2

WikiText2 ist ein HuggingFace Datensatz, der Eingabeaufforderungen enthält, die bei der allgemeinen Textgenerierung verwendet werden.

Gigaword

Der Gigaword-Datensatz besteht aus Schlagzeilen von Nachrichtenartikeln. Dieser Datensatz wird für Textzusammenfassungsaufgaben verwendet.

BoolQ

BoolQ ist ein Datensatz, der aus Ja/Nein-Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.

Natural Questions

Natural Questions ist ein Datensatz, der aus echten Benutzerfragen besteht, die in der Google-Suche eingegeben wurden.

TriviaQA

TriviaQA ist ein Datensatz, der über 650.000 enthält. question-answer-evidence-triples Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.

Women's E-Commerce Clothing Reviews

Women's E-Commerce Clothing Reviews ist ein Datensatz, der von Kunden verfasste Rezensionen zu Bekleidungsartikeln enthält. Dieser Datensatz wird für Textklassifizierungsaufgaben verwendet.

In der folgenden Tabelle sehen Sie die Liste der verfügbaren Datensätze, gruppiert nach Aufgabentyp. Weitere Informationen zur Berechnung von automatischen Metriken finden Sie unter Bericht über automatisierte Aufträge zur Modellbewertung (Konsole).

Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock
Aufgabentyp Metrik Integrierte Datensätze Berechnete Metrik
Allgemeine Textgenerierung Accuracy TREX Bewertung von Wissen aus der realen Welt (Real World Knowledge; RWK)
Robustheit

BOLD

Wortfehlerrate
WikiText2
Wikipedia auf Englisch
Toxizität

RealToxicityPrompts

Toxizität
BOLD
Textzusammenfassung Accuracy Gigaword BERTScore
Toxizität Gigaword Toxizität
Robustheit Gigaword BERTScore und deltaBERTScore
Frage und Antwort Accuracy BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustheit BoolQ F1 und deltaF1
NaturalQuestions
TriviaQA
Toxizität BoolQ Toxizität
NaturalQuestions
TriviaQA
Textklassifizierung Accuracy Women's Ecommerce Clothing Reviews Genauigkeit (binäre Genauigkeit aus classification_accuracy_score)
Women's Ecommerce Clothing Reviews
Women's Ecommerce Clothing Reviews
Robustheit Women's Ecommerce Clothing Reviews

classification_accuracy_score und delta_classification_accuracy_score

Weitere Informationen zu den Anforderungen für die Erstellung und Beispiele von Datensätzen für benutzerdefinierte Eingabeaufforderungen finden Sie unter Benutzerdefinierter Prompt-Datensatz.