Otimização direta de preferências (DPO) - Amazon Nova

Otimização direta de preferências (DPO)

DPO é uma técnica avançada que ajusta os modelos com base nas preferências humanas, não em rótulos fixos. Essa técnica usa exemplos emparelhados nos quais os humanos indicaram qual seria a melhor resposta para um determinado prompt. O modelo aprende a gerar saídas alinhadas com essas preferências, o que ajuda a melhorar a qualidade das respostas, a reduzir saídas prejudiciais e a se alinhar melhor com os valores humanos. A DPO é particularmente útil para refinar o comportamento do modelo após o SFT inicial.

Tanto a DPO completa quanto a DPO de adaptador de classe baixa (LoRA) estão disponíveis.

Para obter instruções detalhadas sobre o uso de DPO com a personalização do modelos do Amazon Nova, consulte a seção Direct Preference Optimization (DPO) do Sage Maker User Guide.