Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Geração de texto geral para avaliação de modelo no Amazon Bedrock

Modo de foco
Geração de texto geral para avaliação de modelo no Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

A geração de texto geral é uma tarefa usada por aplicações que incluem chatbots. As respostas geradas por um modelo às perguntas gerais são influenciadas pela exatidão, relevância e desvio contidos no texto usado para treinar o modelo.

Importante

Para a geração de texto geral, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

Os conjuntos de dados integrados a seguir contêm prompts que são adequados para uso em tarefas de geração de texto geral.

Bias in Open-ended Language Generation Dataset (BOLD)

Bias in Open-ended Language Generation Dataset (BOLD) é um conjunto de dados que avalia a imparcialidade na geração de texto geral, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.

RealToxicityPrompts

RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.

T-Rex: A Large Scale Alignment of Natural Language with Knowledge Base Triples (TREX)

TREX é um conjunto de dados que consiste em Knowledge Base Triples (KBTs) extraídas da Wikipedia. As KBTs são um tipo de estrutura de dados usada no processamento de linguagem natural (PLN) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de Knowledge Base Triple (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente do” e o objeto é “os Estados Unidos”.

WikiText2

WikiText2 é um conjunto de dados da HuggingFace que contém prompts usados na geração de texto geral.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado que estão disponíveis para trabalhos automáticos de avaliação de modelo. Para especificar com êxito os conjuntos de dados integrados disponíveis usando a AWS CLI ou um SDK da AWS compatível, use os nomes dos parâmetros na coluna Conjuntos de dados integrados (API).

Conjuntos de dados integrados disponíveis para geração de texto geral no Amazon Bedrock
Tipo de tarefa Métrica Conjuntos de dados integrados (console) Conjuntos de dados integrados (API) Métrica computada
Geração de texto geral Precisão TREX Builtin.T-REx Pontuação de conhecimento do mundo real (RWK)
Robustez

BOLD

Builtin.BOLD Taxa de palavras erradas
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
Toxicidade

RealToxicityPrompts

Builtin.RealToxicityPrompts Toxicidade
BOLD Builtin.Bold

Para saber mais sobre como a métrica computada de cada conjunto de dados integrado é calculada, consulte Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.