Engenharia rápida para modelos de base - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Engenharia rápida para modelos de base

A engenharia rápida é o processo de projetar e refinar as instruções ou estímulos de entrada de um modelo de linguagem para gerar tipos específicos de saída. A engenharia rápida envolve selecionar palavras-chave apropriadas, fornecer contexto e moldar a entrada de uma forma que incentive o modelo a produzir a resposta desejada e é uma técnica vital para moldar ativamente o comportamento e a saída dos modelos de base.

A engenharia rápida e eficaz é crucial para direcionar o comportamento do modelo e obter as respostas desejadas. Por meio de engenharia rápida, você pode controlar o tom, o estilo e a experiência de domínio de um modelo sem medidas de personalização mais complicadas, como ajustes finos. Recomendamos dedicar tempo à engenharia imediata antes de considerar o ajuste fino de um modelo com dados adicionais. O objetivo é fornecer contexto e orientação suficientes ao modelo para que ele possa generalizar e ter um bom desempenho em cenários de dados invisíveis ou limitados.

Aprendizado zero-shot

O aprendizado zero envolve o treinamento de um modelo para generalizar e fazer previsões sobre aulas ou tarefas invisíveis. Para realizar engenharia imediata em ambientes de aprendizado sem falhas, recomendamos criar solicitações que forneçam explicitamente informações sobre a tarefa de destino e o formato de saída desejado. Por exemplo, se você quiser usar um modelo de base para classificação de texto zero em um conjunto de classes que o modelo não viu durante o treinamento, uma solicitação bem projetada poderia ser: "Classify the following text as either sports, politics, or entertainment: [input text]." Quando especificar explicitamente as classes de destino e o formato de saída esperado, você pode orientar o modelo para fazer previsões precisas mesmo em classes não vistas.

Aprendizado few-shot

O aprendizado rápido envolve o treinamento de um modelo com uma quantidade limitada de dados para novas classes ou tarefas. A engenharia rápida em ambientes de aprendizado few-shotse concentra na criação de instruções que usem com eficácia os limitados dados de treinamento disponíveis. Por exemplo, se você usar um modelo de base para uma tarefa de classificação de imagens e tiver apenas alguns exemplos de uma nova classe de imagem, poderá criar um prompt que inclua os exemplos rotulados disponíveis com um espaço reservado para a classe de destino. Por exemplo, o prompt pode ser:"[image 1], [image 2], and [image 3] are examples of [target class]. Classify the following image as [target class]". Quando incorporar os exemplos rotulados limitados e especificar explicitamente a classe de destino, você pode orientar o modelo para generalizar e fazer previsões precisas, mesmo com o mínimo de dados de treinamento.

Parâmetros de inferência suportados

A alteração dos parâmetros de inferência também pode afetar as respostas às suas solicitações. Embora você possa tentar adicionar o máximo de especificidade e contexto possível às suas solicitações, você também pode experimentar os parâmetros de inferência compatíveis. Veja a seguir exemplos de alguns parâmetros de inferência comumente aceitos:

Parâmetro de inferência Descrição

max_new_tokens

O comprimento máximo de saída de uma resposta do modelo básico. Valores válidos: inteiro, intervalo: inteiro positivo.

temperature

Controla a aleatoriedade na saída. Uma temperatura mais alta resulta em uma sequência de saída com palavras de baixa probabilidade e uma temperatura mais baixa resulta em uma sequência de saída com palavras de alta probabilidade. Setemperature=0, a resposta é composta apenas pelas palavras de maior probabilidade (decodificação gananciosa). Valores válidos: flutuante, intervalo: flutuante positivo

top_p

Em cada etapa da geração de texto, o modelo extrai amostras do menor conjunto possível de palavras com uma probabilidade cumulativa detop_p. Valores válidos: float, intervalo: 0,0, 1,0.

return_full_text

Em caso True afirmativo, o texto de entrada faz parte do texto de saída gerado. Valores válidos: booleano, padrão: False.

Para obter mais informações sobre a inferência do modelo básico, consulteImplemente modelos básicos disponíveis publicamente com a JumpStartModel classe.

Se a engenharia imediata não for suficiente para adaptar seu modelo básico às necessidades comerciais específicas, à linguagem específica do domínio, às tarefas de destino ou a outros requisitos, considere ajustar seu modelo em dados adicionais ou usar a Geração Aumentada de Recuperação (RAG) para ampliar sua arquitetura de modelo com contexto aprimorado de fontes de conhecimento arquivadas. Para obter mais informações, consulte Ajuste um modelo de base ou Geração aumentada de recuperação.