As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usar conjuntos de dados de prompts integrados em trabalhos automáticos de avaliação de modelo
O Amazon Bedrock fornece vários conjuntos de dados de prompts integrados que você pode usar em um trabalho automático de avaliação de modelo. Cada conjunto de dados integrado é baseado em um conjunto de dados de código aberto. Analisamos aleatoriamente cada conjunto de dados de código aberto para incluir apenas 100 solicitações.
Quando você cria um trabalho automático de avaliação de modelo e escolhe um Tipo de tarefa, o Amazon Bedrock fornece uma lista de métricas recomendadas. Para cada métrica, o Amazon Bedrock também fornece conjuntos de dados integrados recomendados. Para saber mais sobre os tipos de tarefa disponíveis, consulte Tarefas de avaliação de modelo.
- Bias in Open-ended Language Generation Dataset (BOLD)
-
Bias in Open-ended Language Generation Dataset (BOLD) é um conjunto de dados que avalia a imparcialidade na geração de texto geral, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.
- RealToxicityPrompts
-
RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.
- T-Rex: A Large Scale Alignment of Natural Language with Knowledge Base Triples (TREX)
-
TREX é um conjunto de dados que consiste em Knowledge Base Triples (KBTs) extraídas da Wikipedia. As KBTs são um tipo de estrutura de dados usada no processamento de linguagem natural (PLN) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de Knowledge Base Triple (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente de” e o objeto é “os Estados Unidos”.
- WikiText2
-
WikiText2 é um HuggingFace conjunto de dados que contém avisos usados na geração geral de texto.
- Gigaword
-
O conjunto de dados do Gigaword consiste em manchetes de artigos de notícias. Esse conjunto de dados é usado em tarefas de resumo de texto.
- BoolQ
-
BoolQ é um conjunto de dados que consiste em pares de perguntas e respostas sim/não. O prompt contém uma passagem curta e uma pergunta sobre a passagem. Esse conjunto de dados é recomendado para uso com o tipo de tarefa de perguntas e respostas.
- Natural Questions
-
Natural Questions é um conjunto de dados que consiste em perguntas reais de usuários enviadas para pesquisa no Google.
- TriviaQA
-
O TriviaQA é um conjunto de dados que contém mais de 650 mil. question-answer-evidence-triples Esse conjunto de dados é usado em tarefas de perguntas e respostas.
- Women's E-Commerce Clothing Reviews
-
Women's E-Commerce Clothing Reviews é um conjunto de dados que contém avaliações de roupas escritas por clientes. Esse conjunto de dados é usado em tarefas de classificação de texto.
Na tabela a seguir, você pode ver a lista de conjuntos de dados disponíveis agrupados por tipo de tarefa. Para saber mais sobre como as métricas automáticas são calculadas, consulte Boletins automatizados de trabalhos de avaliação de modelo (console).
Conjuntos de dados integrados disponíveis para trabalhos automáticos de avaliação de modelo no Amazon Bedrock | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Tipo de tarefa | Métrica | Conjuntos de dados integrados | Métrica computada | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Geração de texto geral | Precisão | TREX |
Pontuação de conhecimento do mundo real (RWK) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustez | Taxa de palavras erradas | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
WikiText2 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wikipedia em inglês |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toxicidade | Toxicidade | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BOLD |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sumarização de texto | Precisão | Gigaword |
BERTScore | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toxicidade | Gigaword |
Toxicidade | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustez | Gigaword |
BERTScore e deltaBERTScore | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Perguntas e respostas | Precisão | BoolQ |
NLP-F1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustez | BoolQ |
F1 e deltaF1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toxicidade | BoolQ |
Toxicidade | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Classificação de texto | Precisão | Women's Ecommerce Clothing Reviews |
Precisão (precisão binária de classification_accuracy_score) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Women's Ecommerce Clothing Reviews |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Women's Ecommerce Clothing Reviews |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Robustez | Women's Ecommerce Clothing Reviews |
classification_accuracy_score e delta_classification_accuracy_score |
Para saber mais sobre os requisitos de criação e exemplos de conjuntos de dados de prompts personalizados, consulte Conjunto de dados de prompts personalizado.