Otimização direta de preferências (DPO)
DPO é uma técnica avançada que ajusta os modelos com base nas preferências humanas, não em rótulos fixos. Essa técnica usa exemplos emparelhados nos quais os humanos indicaram qual seria a melhor resposta para um determinado prompt. O modelo aprende a gerar saídas alinhadas com essas preferências, o que ajuda a melhorar a qualidade das respostas, a reduzir saídas prejudiciais e a se alinhar melhor com os valores humanos. A DPO é particularmente útil para refinar o comportamento do modelo após o SFT inicial.
Tanto a DPO completa quanto a DPO de adaptador de classe baixa (LoRA) estão disponíveis.
Para obter instruções detalhadas sobre o uso de DPO com a personalização do modelos do Amazon Nova, consulte a seção Direct Preference Optimization (DPO) do Sage Maker User Guide.