Métricas para ajustar modelos de linguagem grandes no Autopilot

Usando seu conjunto de dados, o Autopilot ajusta diretamente seu modelo de linguagem de destino (LLM) para aprimorar uma métrica objetiva padrão, a perda de entropia cruzada.

A perda de entropia cruzada é uma métrica amplamente usada para avaliar a dissimilaridade entre a distribuição de probabilidade prevista e a distribuição real das palavras nos dados de treinamento. Ao minimizar a perda de entropia cruzada, o modelo aprende a fazer previsões mais precisas e contextualmente relevantes, principalmente em tarefas relacionadas à geração de texto.

Depois de ajustar um LLM, você pode avaliar a qualidade do texto gerado usando uma variedade de pontuações. ROUGE Além disso, você pode analisar as perdas de treinamento e validação de perplexidade e entropia cruzada como parte do processo de avaliação.

A perda de perplexidade mede o quão bem o modelo pode prever a próxima palavra em uma sequência de texto, com valores mais baixos indicando uma melhor compreensão do idioma e do contexto.
Recall-Oriented Understudy for Gisting Evaluation (ROUGE)é um conjunto de métricas usadas no campo do processamento de linguagem natural (PNL) e do aprendizado de máquina para avaliar a qualidade do texto gerado por máquina, como resumo ou geração de texto. Ele avalia principalmente as semelhanças entre o texto gerado e o texto de referência da verdade básica (escrito por humanos) de um conjunto de dados de validação. ROUGEas medidas são projetadas para avaliar vários aspectos da similaridade de texto, incluindo a precisão e a recordação de n-gramas (sequências contíguas de palavras) nos textos gerados pelo sistema e de referência. O objetivo é avaliar o quão bem um modelo captura as informações presentes no texto de referência.

Há várias variantes de ROUGE métricas, dependendo do tipo de n-gramas usado e dos aspectos específicos da qualidade do texto que está sendo avaliado.

A lista a seguir contém o nome e a descrição das ROUGE métricas disponíveis após o ajuste fino de grandes modelos de linguagem no Autopilot.

ROUGE-1, ROUGE-2

ROUGE-N, a ROUGE métrica primária, mede a sobreposição de n-gramas entre os textos gerados pelo sistema e os de referência. ROUGE-Npodem ser ajustados para diferentes valores de n (aqui 1 ou2) para avaliar o quão bem o texto gerado pelo sistema captura os n-gramas do texto de referência.

ROUGE-L

ROUGE-L(Subseqüência ROUGE-Longest comum) calcula a maior subsequência comum entre o texto gerado pelo sistema e o texto de referência. Essa variante considera a ordem das palavras, além da sobreposição de conteúdo.

ROUGE-L-Sum

ROUGE-L-SUM(Longest Common Subsequence for Summarization) foi projetado para a avaliação de sistemas de resumo de texto. Ele se concentra em medir a maior subsequência comum entre o resumo gerado pela máquina e o resumo de referência. ROUGE-L-SUMleva em consideração a ordem das palavras no texto, o que é importante nas tarefas de resumo do texto.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Hiperparâmetros

Implantação e previsões do modelo