Métricas para ajustar modelos de linguagem grandes no Autopilot - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Métricas para ajustar modelos de linguagem grandes no Autopilot

Usando seu conjunto de dados, o Autopilot ajusta diretamente seu modelo de linguagem de destino (LLM) para aprimorar uma métrica objetiva padrão, a perda de entropia cruzada.

A perda de entropia cruzada é uma métrica amplamente usada para avaliar a dissimilaridade entre a distribuição de probabilidade prevista e a distribuição real das palavras nos dados de treinamento. Ao minimizar a perda de entropia cruzada, o modelo aprende a fazer previsões mais precisas e contextualmente relevantes, principalmente em tarefas relacionadas à geração de texto.

Depois de ajustar um LLM, você pode avaliar a qualidade do texto gerado usando uma variedade de pontuações. ROUGE Além disso, você pode analisar as perdas de treinamento e validação de perplexidade e entropia cruzada como parte do processo de avaliação.

  • A perda de perplexidade mede o quão bem o modelo pode prever a próxima palavra em uma sequência de texto, com valores mais baixos indicando uma melhor compreensão do idioma e do contexto.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE)é um conjunto de métricas usadas no campo do processamento de linguagem natural (PNL) e do aprendizado de máquina para avaliar a qualidade do texto gerado por máquina, como resumo ou geração de texto. Ele avalia principalmente as semelhanças entre o texto gerado e o texto de referência da verdade básica (escrito por humanos) de um conjunto de dados de validação. ROUGEas medidas são projetadas para avaliar vários aspectos da similaridade de texto, incluindo a precisão e a recordação de n-gramas (sequências contíguas de palavras) nos textos gerados pelo sistema e de referência. O objetivo é avaliar o quão bem um modelo captura as informações presentes no texto de referência.

    Há várias variantes de ROUGE métricas, dependendo do tipo de n-gramas usado e dos aspectos específicos da qualidade do texto que está sendo avaliado.

    A lista a seguir contém o nome e a descrição das ROUGE métricas disponíveis após o ajuste fino de grandes modelos de linguagem no Autopilot.

    ROUGE-1, ROUGE-2

    ROUGE-N, a ROUGE métrica primária, mede a sobreposição de n-gramas entre os textos gerados pelo sistema e os de referência. ROUGE-Npodem ser ajustados para diferentes valores de n (aqui 1 ou2) para avaliar o quão bem o texto gerado pelo sistema captura os n-gramas do texto de referência.

    ROUGE-L

    ROUGE-L(Subseqüência ROUGE-Longest comum) calcula a maior subsequência comum entre o texto gerado pelo sistema e o texto de referência. Essa variante considera a ordem das palavras, além da sobreposição de conteúdo.

    ROUGE-L-Sum

    ROUGE-L-SUM(Longest Common Subsequence for Summarization) foi projetado para a avaliação de sistemas de resumo de texto. Ele se concentra em medir a maior subsequência comum entre o resumo gerado pela máquina e o resumo de referência. ROUGE-L-SUMleva em consideração a ordem das palavras no texto, o que é importante nas tarefas de resumo do texto.