Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden von integrierten Prompt-Datensätzen in automatischen Aufträgen zur Modellbewertung
Amazon Bedrock bietet mehrere integrierte Prompt-Datensätze, die Sie in einem automatischen Auftrag zur Modellbewertung verwenden können. Jeder integrierte Datensatz basiert auf einem Open-Source-Datensatz. Wir haben jeden Open-Source-Datensatz nach dem Zufallsprinzip heruntergesampelt, sodass er nur 100 Eingabeaufforderungen enthält.
Wenn Sie einen automatischen Auftrag zur Modellbewertung erstellen und einen Aufgabentyp auswählen, stellt Ihnen Amazon Bedrock eine Liste mit empfohlenen Metriken zur Verfügung. Für jede Metrik bietet Amazon Bedrock auch empfohlene integrierte Datensätze. Weitere Informationen zu den verfügbaren Aufgabentypen finden Sie unter Aufgaben zur Modellbewertung.
- Bias im Datensatz zur Sprachgenerierung mit offenem Ende (Open-ended Language Generation; BOLD)
-
Der Bias in Datensatz zur Sprachgenerierung mit offenem Ende (BOLD) ist ein Datensatz, der die Fairness bei der allgemeinen Textgenerierung bewertet und sich auf fünf Bereiche konzentriert: Beruf, Geschlecht, Rasse, religiöse und politische Ideologie. Er enthält 23.679 verschiedene Eingabeaufforderungen zur Textgenerierung.
- RealToxicityPrompts
-
RealToxicityPrompts ist ein Datensatz, der die Toxizität bewertet. Es versucht, das Modell dazu zu bringen, rassistische, sexistische oder anderweitig toxische Sprache zu erzeugen. Dieser Datensatz enthält 100.000 verschiedene Eingabeaufforderungen zur Textgenerierung.
- T-Rex: Eine groß angelegte Angleichung natürlicher Sprache an Knowledge Base Triples (TREX)
-
TREX ist ein Datensatz, der aus Knowledge Base Triples (KBTs) besteht und aus Wikipedia extrahiert wurde. KBTs sind eine Art von Datenstruktur, die bei der Verarbeitung natürlicher Sprache (NLP) und der Wissensdarstellung verwendet wird. Sie bestehen aus einem Subjekt, einem Prädikat und einem Objekt, wobei das Subjekt und das Objekt durch eine Beziehung miteinander verbunden sind. Ein Beispiel für ein Knowledge Base Triple (KBT) ist „George Washington war der Präsident der Vereinigten Staaten“. Das Subjekt ist „George Washington“, das Prädikat ist „war der Präsident von“ und das Objekt ist „der Vereinigten Staaten“.
- WikiText2
-
WikiText2 ist ein HuggingFace Datensatz, der Eingabeaufforderungen enthält, die bei der allgemeinen Textgenerierung verwendet werden.
- Gigaword
-
Der Gigaword-Datensatz besteht aus Schlagzeilen von Nachrichtenartikeln. Dieser Datensatz wird für Textzusammenfassungsaufgaben verwendet.
- BoolQ
-
BoolQ ist ein Datensatz, der aus Ja/Nein-Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.
- Natural Questions
-
Natural Questions ist ein Datensatz, der aus echten Benutzerfragen besteht, die in der Google-Suche eingegeben wurden.
- TriviaQA
-
TriviaQA ist ein Datensatz, der über 650.000 enthält. question-answer-evidence-triples Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.
- Women's E-Commerce Clothing Reviews
-
Women's E-Commerce Clothing Reviews ist ein Datensatz, der von Kunden verfasste Rezensionen zu Bekleidungsartikeln enthält. Dieser Datensatz wird für Textklassifizierungsaufgaben verwendet.
In der folgenden Tabelle sehen Sie die Liste der verfügbaren Datensätze, gruppiert nach Aufgabentyp. Weitere Informationen zur Berechnung von automatischen Metriken finden Sie unter Bericht über automatisierte Aufträge zur Modellbewertung (Konsole).
Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Aufgabentyp | Metrik | Integrierte Datensätze | Berechnete Metrik | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Allgemeine Textgenerierung | Accuracy | TREX |
Bewertung von Wissen aus der realen Welt (Real World Knowledge; RWK) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustheit | Wortfehlerrate | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
WikiText2 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wikipedia auf Englisch |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toxizität | Toxizität | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BOLD |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Textzusammenfassung | Accuracy | Gigaword |
BERTScore | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toxizität | Gigaword |
Toxizität | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustheit | Gigaword |
BERTScore und deltaBERTScore | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Frage und Antwort | Accuracy | BoolQ |
NLP-F1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustheit | BoolQ |
F1 und deltaF1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toxizität | BoolQ |
Toxizität | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Textklassifizierung | Accuracy | Women's Ecommerce Clothing Reviews |
Genauigkeit (binäre Genauigkeit aus classification_accuracy_score) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Women's Ecommerce Clothing Reviews |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Women's Ecommerce Clothing Reviews |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustheit | Women's Ecommerce Clothing Reviews |
classification_accuracy_score und delta_classification_accuracy_score |
Weitere Informationen zu den Anforderungen für die Erstellung und Beispiele von Datensätzen für benutzerdefinierte Eingabeaufforderungen finden Sie unter Benutzerdefinierter Prompt-Datensatz.