Otimização direta de preferências (DPO)

DPO é uma técnica avançada que ajusta os modelos com base nas preferências humanas, não em rótulos fixos. Essa técnica usa exemplos emparelhados nos quais os humanos indicaram qual seria a melhor resposta para um determinado prompt. O modelo aprende a gerar saídas alinhadas com essas preferências, o que ajuda a melhorar a qualidade das respostas, a reduzir saídas prejudiciais e a se alinhar melhor com os valores humanos. A DPO é particularmente útil para refinar o comportamento do modelo após o SFT inicial.

Tanto a DPO completa quanto a DPO de adaptador de classe baixa (LoRA) estão disponíveis.

Para obter instruções detalhadas sobre o uso de DPO com a personalização do modelos do Amazon Nova, consulte a seção Direct Preference Optimization (DPO) do Sage Maker User Guide.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Ajuste supervisionado (Full FT, PEFT)

Otimização de política proximal (PPO)