As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Métricas para ajustar modelos de linguagem grandes no Autopilot
Usando seu conjunto de dados, o Autopilot ajusta diretamente seu modelo de linguagem de destino (LLM) para aprimorar uma métrica objetiva padrão, a perda de entropia cruzada.
A perda de entropia cruzada é uma métrica amplamente usada para avaliar a dissimilaridade entre a distribuição de probabilidade prevista e a distribuição real das palavras nos dados de treinamento. Ao minimizar a perda de entropia cruzada, o modelo aprende a fazer previsões mais precisas e contextualmente relevantes, principalmente em tarefas relacionadas à geração de texto.
Depois de ajustar um LLM, você pode avaliar a qualidade do texto gerado usando uma variedade de pontuações. ROUGE Além disso, você pode analisar as perdas de treinamento e validação de perplexidade e entropia cruzada como parte do processo de avaliação.
-
A perda de perplexidade mede o quão bem o modelo pode prever a próxima palavra em uma sequência de texto, com valores mais baixos indicando uma melhor compreensão do idioma e do contexto.
-
Recall-Oriented Understudy for Gisting Evaluation (ROUGE)é um conjunto de métricas usadas no campo do processamento de linguagem natural (PNL) e do aprendizado de máquina para avaliar a qualidade do texto gerado por máquina, como resumo ou geração de texto. Ele avalia principalmente as semelhanças entre o texto gerado e o texto de referência da verdade básica (escrito por humanos) de um conjunto de dados de validação. ROUGEas medidas são projetadas para avaliar vários aspectos da similaridade de texto, incluindo a precisão e a recordação de n-gramas (sequências contíguas de palavras) nos textos gerados pelo sistema e de referência. O objetivo é avaliar o quão bem um modelo captura as informações presentes no texto de referência.
Há várias variantes de ROUGE métricas, dependendo do tipo de n-gramas usado e dos aspectos específicos da qualidade do texto que está sendo avaliado.
A lista a seguir contém o nome e a descrição das ROUGE métricas disponíveis após o ajuste fino de grandes modelos de linguagem no Autopilot.
ROUGE-1
,ROUGE-2
-
ROUGE-N, a ROUGE métrica primária, mede a sobreposição de n-gramas entre os textos gerados pelo sistema e os de referência. ROUGE-Npodem ser ajustados para diferentes valores de
n
(aqui1
ou2
) para avaliar o quão bem o texto gerado pelo sistema captura os n-gramas do texto de referência. ROUGE-L
-
ROUGE-L(Subseqüência ROUGE-Longest comum) calcula a maior subsequência comum entre o texto gerado pelo sistema e o texto de referência. Essa variante considera a ordem das palavras, além da sobreposição de conteúdo.
ROUGE-L-Sum
-
ROUGE-L-SUM(Longest Common Subsequence for Summarization) foi projetado para a avaliação de sistemas de resumo de texto. Ele se concentra em medir a maior subsequência comum entre o resumo gerado pela máquina e o resumo de referência. ROUGE-L-SUMleva em consideração a ordem das palavras no texto, o que é importante nas tarefas de resumo do texto.