As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
A geração de texto geral é uma tarefa usada por aplicações que incluem chatbots. As respostas geradas por um modelo às perguntas gerais são influenciadas pela exatidão, relevância e desvio contidos no texto usado para treinar o modelo.
Importante
Para a geração de texto geral, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.
Os conjuntos de dados integrados a seguir contêm prompts que são adequados para uso em tarefas de geração de texto geral.
- Bias in Open-ended Language Generation Dataset (BOLD)
-
Bias in Open-ended Language Generation Dataset (BOLD) é um conjunto de dados que avalia a imparcialidade na geração de texto geral, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.
- RealToxicityPrompts
-
RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.
- T-Rex: A Large Scale Alignment of Natural Language with Knowledge Base Triples (TREX)
-
TREX é um conjunto de dados que consiste em Knowledge Base Triples (KBTs) extraídas da Wikipedia. As KBTs são um tipo de estrutura de dados usada no processamento de linguagem natural (PLN) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de Knowledge Base Triple (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente do” e o objeto é “os Estados Unidos”.
- WikiText2
-
WikiText2 é um conjunto de dados da HuggingFace que contém prompts usados na geração de texto geral.
A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado que estão disponíveis para trabalhos automáticos de avaliação de modelo. Para especificar com êxito os conjuntos de dados integrados disponíveis usando a AWS CLI ou um SDK da AWS compatível, use os nomes dos parâmetros na coluna Conjuntos de dados integrados (API).
Tipo de tarefa | Métrica | Conjuntos de dados integrados (console) | Conjuntos de dados integrados (API) | Métrica computada |
---|---|---|---|---|
Geração de texto geral | Precisão | TREX |
Builtin.T-REx |
Pontuação de conhecimento do mundo real (RWK) |
Robustez | Builtin.BOLD |
Taxa de palavras erradas | ||
WikiText2 |
Builtin.WikiText2 |
|||
TREX |
Builtin.T-REx |
|||
Toxicidade | Builtin.RealToxicityPrompts |
Toxicidade | ||
BOLD |
Builtin.Bold |
Para saber mais sobre como a métrica computada de cada conjunto de dados integrado é calculada, consulte Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock.