Conjuntos de dados de prompts personalizados (avaliação automática)Conjuntos de dados de prompts personalizados (avaliação humana)

Conjunto de dados de prompts personalizado

Você pode usar um conjunto de dados de prompts personalizado em trabalhos de avaliação de modelo.

Os conjuntos de dados de prompts personalizados devem ser armazenados no Amazon S3, usar o formato de linha JSON e usar a extensão de arquivo .jsonl. Ao fazer upload do conjunto de dados no Amazon S3, atualize a configuração de CORS (compartilhamento de recursos de origem cruzada) no bucket do S3. Para saber mais sobre as permissões de CORS necessárias, consulte Permissão de CORS (compartilhamento de recursos de origem cruzada) necessária em buckets do S3.

Tópicos

Requisitos para conjuntos de dados de prompts personalizados usados em trabalhos automáticos de avaliação de modelo
Requisitos para conjuntos de dados de prompts personalizados em trabalhos de avaliação de modelo com a participação de operadores humanos

Requisitos para conjuntos de dados de prompts personalizados usados em trabalhos automáticos de avaliação de modelo

Nos trabalhos automáticos de avaliação de modelo, você pode usar um conjunto de dados de prompts personalizado para cada métrica selecionada no trabalho de avaliação de modelo. Os conjuntos de dados personalizados usam o formato de linha JSON (.jsonl) e cada linha deve ser um objeto JSON válido. Um conjunto de dados pode ter até 1.000 prompts por trabalho de avaliação automática.

Você deve usar as chaves a seguir em um conjunto de dados personalizado.

prompt: necessária para indicar a entrada para as seguintes tarefas:
- O prompt ao qual o modelo deve responder em caso de geração de texto geral.
- A pergunta que o modelo deve responder no tipo de tarefa de perguntas e respostas.
- O texto que o modelo deve resumir na tarefa de resumo de texto.
- O texto que o modelo deve classificar nas tarefas de classificação.
referenceResponse: necessária para indicar a resposta real em relação à qual o modelo é avaliado para os seguintes tipos de tarefas:
- A resposta para todos os prompts em tarefas de perguntas e respostas.
- A resposta para todas as avaliações de precisão e robustez.
(Opcional) category: gera pontuações de avaliação relatadas para cada categoria.

Por exemplo, a precisão exige tanto a pergunta a ser feita quanto a resposta para comparar com a resposta do modelo. Neste exemplo, use a chave prompt com o valor contido na pergunta e a chave referenceResponse com o valor contido na resposta, conforme mostrado a seguir.


{
	"prompt": "Bobigny is the capital of",
	"referenceResponse": "Seine-Saint-Denis",
	"category": "Capitals"
}

O exemplo anterior é uma única linha de um arquivo de entrada de linha JSON que será enviada ao modelo como uma solicitação de inferência. O modelo será invocado para cada registro desse tipo no conjunto de dados de linha JSON. O exemplo de entrada de dados a seguir se refere a uma tarefa de perguntas e respostas que usa uma chave category opcional para avaliação.


{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}

Para saber mais sobre os requisitos de formato para trabalhos de avaliação de modelo com a participação de operadores humanos, consulte Requisitos para conjuntos de dados de prompts personalizados em trabalhos de avaliação de modelo com a participação de operadores humanos.

Requisitos para conjuntos de dados de prompts personalizados em trabalhos de avaliação de modelo com a participação de operadores humanos

No formato de linha JSON, cada linha é um objeto JSON válido. Um conjunto de dados de prompts pode ter até 1.000 prompts por trabalho de avaliação de modelo.

Uma entrada de prompt válida deve conter a prompt chave. Ambos category referenceResponse são opcionais. Use a chave category para rotular o prompt com uma categoria específica que você pode usar para filtrar os resultados ao analisá-los no boletim da avaliação do modelo. Use a chave referenceResponse para especificar a resposta real que os operadores podem consultar durante a avaliação.

Na interface de usuário do operador, o que você especifica para prompt e referenceResponse fica visível para os operadores humanos.

Veja a seguir um exemplo de conjunto de dados personalizado que contém seis entradas e usa o formato de linha JSON.


{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

O exemplo a seguir é uma única entrada expandida para maior clareza


{
    "prompt": "What is high intensity interval training?",
    "category": "Fitness",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conjuntos de dados de prompts integrados

Instruções para os operadores