View a markdown version of this page

Personalização do Amazon Nova no SageMaker HyperPod - Amazon Nova

Personalização do Amazon Nova no SageMaker HyperPod

Você pode personalizar os modelos do Amazon Nova, incluindo os modelos aprimorados do Amazon Nova 2.0, usando as fórmulas do Amazon Nova e treinando-os no Hyperpod. Uma receita é um arquivo de configuração YAML que fornece ao SageMaker AI detalhes sobre como executar a tarefa de personalização de modelo. O SageMaker HyperPod é compatível com dois tipos de serviços: Forge e Não Forge.

O HyperPod oferece computação de alta performance com instâncias de GPU otimizadas e armazenamento do Amazon FSx para Lustre, monitoramento avançado por meio da integração com ferramentas como o TensorBoard, gerenciamento flexível de pontos de verificação para aprimoramento iterativo, implantação sem falhas no Amazon Bedrock para inferência e treinamento distribuído de vários nós eficiente e escalável, tudo trabalhando em conjunto para fornecer às organizações um ambiente de alta performance seguro e flexível para personalizar os modelos do Amazon Nova de acordo com os requisitos de cada uma.

A personalização do Amazon Nova no SageMaker HyperPod armazena artefatos de modelo, incluindo pontos de verificação de modelos, em um bucket do Amazon S3 gerenciado pelo serviço. Os artefatos no bucket gerenciado pelo serviço são criptografados com chaves do AWS KMS gerenciadas pelo SageMaker AI. No momento, os buckets do Amazon S3 gerenciados pelo serviço não são compatíveis com criptografia de dados usando chaves do KMS gerenciadas pelo cliente. Você pode usar esse ponto de verificação para tarefas de avaliação ou para inferência do Amazon Bedrock.

O preço padrão pode ser aplicado a instâncias de computação, ao armazenamento do Amazon S3 e ao FSx para Lustre. Para obter detalhes de preços, consulte Preços do HyperPod, Preços do Amazon S3 e Preços do FSx para Lustre.

Requisitos de computação para os modelos do Amazon Nova 2

As tabelas a seguir resumem os requisitos de computação e o treinamento de tarefas de treinamento do SageMaker AI e do HyperPod para modelos do Amazon Nova 2.

Requisitos de treinamento do Nova 2

Técnica de treinamento

Instâncias mínimas

Tipo de instância

Contagem de GPU

Observações

Modelos compatíveis

SFT (LoRA)

4

P5.48xlarge

16

Ajuste fino com eficiência de parâmetros

Nova 2 Lite

SFT (full-rank)

4

P5.48xlarge

32

Ajuste fino completo de modelos

Nova 2 Lite

RFT nas tarefas de treinamento do SageMaker (LoRA)

2

P5.48xlarge

16

Funções de recompensa personalizadas em seu ambiente da AWS

Nova 2 Lite

RFT sobre tarefas de treinamento do SageMaker (full-rank)

4

P5.48xlarge

32

Extensão de contexto de 32 mil

Nova 2 Lite

RFT no SageMaker HyperPod

8

P5.48xlarge

64

Extensão de contexto padrão de 8.192

Nova 2 Lite

CPT

4

P5.48xlarge

16

Processa aproximadamente 400 milhões de tokens por instância por dia

Nova 2 Lite

Para otimizar seus fluxos de trabalho de personalização de modelos do Amazon Nova no Hyperpod, siga estas práticas recomendadas para treinamento eficiente, gerenciamento de recursos e implantação bem-sucedida de modelos.

Práticas recomendadas para personalização do Amazon Nova

Visão geral

Esta seção fornece uma visão geral das técnicas de personalização e ajuda você a escolher a melhor abordagem para suas necessidades e dados disponíveis.

Duas etapas do treinamento de LLM

O treinamento de grandes modelos de linguagem consiste em duas etapas principais: pré-treinamento e pós-treinamento. Durante o pré-treinamento, o modelo processa tokens de texto bruto e otimiza a predição do próximo token. Esse processo cria um completador de padrões que absorve a sintaxe, a semântica, os fatos e os padrões de raciocínio da web e do texto selecionado. No entanto, o modelo pré-treinado não compreende as instruções, as metas do usuário ou o comportamento adequado ao contexto. Ele continua o texto em qualquer estilo adequado à sua distribuição de treinamento. Um modelo pré-treinado é preenchido automaticamente em vez de seguir as instruções, produz formatação inconsistente e pode refletir vieses indesejáveis ou conteúdo inseguro provenientes dos dados de treinamento. O pré-treinamento desenvolve a competência geral, não a utilidade da tarefa.

O pós-treinamento transforma o completador de padrões em um assistente útil. Você executa várias rodadas de ajuste fino supervisionado (SFT) para ensinar o modelo a seguir instruções, a aderir a esquemas e políticas, a chamar ferramentas e a gerar resultados confiáveis imitando demonstrações de alta qualidade. Esse alinhamento ensina o modelo a responder aos prompts como tarefas, em vez de texto para continuar. Em seguida, você aplica o ajuste fino pro reforço (RFT) para otimizar o comportamento usando feedback mensurável (como verificadores ou um LLM como avaliador), equilibrando compensações como precisão versus brevidade, segurança versus cobertura ou raciocínio em várias etapas sob restrições. Na prática, você alterna o SFT e o RFT em ciclos para transformar o modelo pré-treinado em um sistema confiável e alinhado a políticas que executa tarefas complexas de forma consistente.

Escolher a abordagem certa de personalização

Nesta seção, abordaremos as estratégias de personalização pós-treinamento: RFT e SFT.

Ajuste fino por reforço (RFT)

O ajuste fino por reforço melhora o desempenho do modelo por meio de sinais de feedback (pontuações mensuráveis ou recompensas que indicam a qualidade da resposta) em vez de supervisão direta com respostas exatas e corretas. Ao contrário do ajuste fino supervisionado tradicional que aprende com pares de entrada e saída, o RFT usa funções de recompensa para avaliar as respostas do modelo e otimiza iterativamente o modelo para maximizar essas recompensas. Essa abordagem funciona bem para tarefas em que definir a saída correta exata é um desafio, mas você pode avaliar com segurança a qualidade da resposta. O RFT permite que os modelos aprendam comportamentos e preferências complexos por meio de testes e feedback, tornando-o ideal para aplicações que exigem uma tomada de decisão diferenciada, uma solução criativa de problemas ou uma adesão a critérios de qualidade específicos que você pode avaliar de forma programática. Por exemplo, responder a questões jurídicas complexas é um caso de uso ideal para o RFT porque você quer ensinar ao modelo como raciocinar melhor para responder a perguntas com mais precisão.

Como funciona

No ajuste fino por reforço, você parte de uma linha de base ajustada às instruções e trata cada prompt como um pequeno torneio. Para uma determinada entrada, você coleta amostras de algumas respostas candidatas do modelo, pontua cada uma com a função de recompensa e as classifica dentro desse grupo. A etapa de atualização aprimora o modelo para tornar os candidatos com a pontuação mais alta os mais prováveis na próxima vez, e os com pontuação mais baixa os menos prováveis, enquanto uma restrição de proximidade à linha de base evita o desvio de comportamento, a verbosidade ou o tom exploratório. Você repete esse ciclo em vários prompts, atualizando casos difíceis, reforçando os verificadores ou avaliando rubricas quando vê um tom exploratório e rastreando continuamente as métricas das tarefas.

Quando usar o RFT

As tarefas que mais se beneficiam do RFT compartilham várias características. Elas têm sinais de sucesso mensuráveis, mesmo quando é difícil especificar uma única saída correta. Elas admitem pontuação parcial ou qualidade escalonada para que você possa classificar as melhores e piores respostas em um prompt ou usando uma função de recompensa. Elas envolvem vários objetivos que devem ser equilibrados (como precisão com brevidade, clareza, segurança ou custo). Elas exigem a adesão a restrições explícitas que podem ser verificadas de forma programática. Elas operam em ambientes mediados por ferramentas ou baseados no ambiente, em que os resultados são observáveis (sucesso ou falha, latência, uso de recursos). Elas ocorrem em regimes de poucos rótulos, em que a coleta de alvos de referência é dispendiosa, mas o feedback automatizado ou baseado em rubricas é abundante. O RFT funciona melhor quando você pode transformar a qualidade em um escalar ou uma classificação confiável e deseja que o modelo amplifique preferencialmente os comportamentos de maior pontuação sem precisar de metas rotuladas exaustivas.

Considere outros métodos quando:

  • Você tem pares de entrada-saída rotulados, abundantes e confiáveis: use o SFT

  • A principal lacuna é o conhecimento ou o jargão: use a geração aumentada via recuperação (RAG)

  • O sinal de recompensa apresenta ruído ou falta de confiabilidade, sem possibilidade de correção via rubricas ou verificadores: estabilize esse ponto antes de prosseguir com o RFT

Quando não usar o RFT

Evite o RFT nestas situações:

  • Você pode produzir de forma barata pares de entrada-saída rotulados confiáveis (o SFT é mais simples, barato e mais estável)

  • A lacuna é conhecimento ou jargão, em vez de comportamento (use a RAG)

  • Seu sinal de recompensa apresenta ruído, é esparso, fácil de burlar ou tem computação cara ou lenta (corrija o avaliador primeiro)

  • O desempenho da linha de base é próximo de zero (inicialize com o SFT antes de otimizar as preferências)

  • A tarefa tem esquemas determinísticos, formatação estrita ou uma única resposta correta (SFT ou validação baseada em regras funciona melhor)

  • Limitações rígidas de latência ou orçamento não suportam a amostragem ou exploração extra exigida pelo RFT

  • As restrições de segurança ou políticas não são especificadas de forma precisa e aplicáveis na recompensa

Se você puder apontar para “a resposta certa”, use o SFT. Se você precisar de novos conhecimentos, use a RAG. Use o RFT somente depois de ter uma linha de base sólida e uma função de recompensa robusta, rápida e difícil de explorar.

Ajuste fino supervisionado (SFT)

O ajuste fino supervisionado treina o LLM em um conjunto de dados de pares de entrada-saída rotulados por humanos para sua tarefa. Você fornece exemplos de prompts (perguntas, instruções etc.) junto com as respostas corretas ou desejadas e continua treinando o modelo com base nelas. O modelo ajusta o peso para minimizar uma perda supervisionada (normalmente entropia cruzada entre suas predições e os tokens de saída esperados). Esse é o mesmo treinamento usado na maioria das tarefas supervisionadas de machine learning, aplicado para especializar um LLM.

O SFT muda o comportamento, não o conhecimento. Ele não ensina ao modelo novos fatos ou jargões que não foram vistos no pré-treinamento. Ela ensina ao modelo como responder, não o que saber. Se você precisar de um novo conhecimento de domínio (como terminologia interna), use a geração aumentada via recuperação (RAG) para fornecer esse contexto no momento da inferência. Posteriormente, o SFT incorpora o comportamento de seguimento de instruções desejado à estrutura do modelo.

Como funciona

O SFT otimiza o LLM minimizando a perda média de entropia cruzada nos tokens de resposta, tratando os tokens de prompts como contexto e mascarando-os da perda. O modelo internaliza seu estilo alvo, estrutura e regras de decisão, aprendendo a gerar a finalização correta para cada prompt. Por exemplo, para classificar documentos em categorias personalizadas, você ajusta o modelo com prompts (o texto do documento) e conclusões rotuladas (os rótulos das categorias). Você treina nesses pares até que o modelo gere o rótulo correto para cada prompt com alta probabilidade.

Você pode executar o SFT com apenas algumas centenas de exemplos e aumentar a escala verticalmente até algumas centenas de milhares. As amostras do SFT devem ser de alta qualidade e estar diretamente alinhadas com o comportamento desejado do modelo.

Quando usar o SFT

O SFT é melhor quando você tem uma tarefa bem definida com as saídas desejadas claras. Se você puder declarar explicitamente “Dada a entrada X, a saída correta/desejada é Y” e reunir exemplos desses mapeamentos, o ajuste fino supervisionado será uma ótima opção. O SFT se destaca nestes cenários:

  • Tarefas de classificação estruturadas ou complexas: classificar documentos ou contratos internos em várias categorias personalizadas. Com o SFT, o modelo aprende essas categorias específicas muito melhor do que apenas gerando prompts.

  • Tarefas de questionamento e resposta ou transformação com respostas conhecidas: ajustar um modelo para responder a perguntas da base de conhecimentos de uma empresa ou converter dados entre formatos, em que cada entrada tem uma resposta correta.

  • Formatação e consistência de estilo: treine o modelo para que sempre responda em um determinado formato ou tom, ajustando exemplos do formato ou tom correto. Por exemplo, o treinamento em pares de prompt-resposta que demonstram uma voz de marca específica ensina o modelo a gerar saídas com esse estilo. O comportamento de seguir as instruções geralmente é ensinado logo no início via SFT em exemplos selecionados de bom comportamento do assistente.

O SFT é a maneira mais direta de ensinar a um LLM uma nova habilidade ou comportamento quando você pode especificar qual é o comportamento correto. Ele aproveita a compreensão da linguagem existente do modelo e a concentra em sua tarefa. Use o SFT quando quiser que o modelo faça algo específico e você tiver ou puder criar um conjunto de dados de exemplos.

Use o SFT quando puder montar pares de prompts e respostas de alta qualidade que reflitam com precisão o comportamento desejado. Ele se adapta a tarefas com metas claras ou formatos determinísticos, como esquemas, chamadas de funções ou ferramentas e respostas estruturadas, em que a imitação é um sinal de treinamento apropriado. O objetivo é moldar o comportamento: ensinar o modelo a tratar prompts como tarefas, seguir instruções, adotar políticas de tom e recusa e produzir uma formatação consistente. Planeje pelo menos centenas de demonstrações, com a qualidade, a consistência e a desduplicação de dados sendo mais importante do que o volume bruto. Para uma atualização direta e econômica, use métodos eficientes em termos de parâmetros, como o Low-Rank Adaptation, para treinar adaptadores pequenos e, ao mesmo tempo, deixar a maior parte da estrutura intocada.

Quando não usar o SFT

Não use o SFT quando a lacuna for conhecimento e não comportamento. Ele não ensina ao modelo novos fatos, jargões ou eventos recentes. Nesses casos, use a geração aumentada via recuperação para trazer conhecimento externo para inferência. Evite o SFT quando você pode avaliar a qualidade, mas não consegue rotular uma única resposta certa. Use o ajuste fino por reforço com recompensas verificáveis ou um LLM como avaliador para otimizar essas recompensas diretamente. Se suas necessidades ou conteúdo mudarem com frequência, priorize a recuperação e o uso de ferramentas em vez de treinar novamente o modelo.