Métriques pour affiner de grands modèles linguistiques dans Autopilot

La section suivante décrit les indicateurs que vous pouvez utiliser pour comprendre vos grands modèles linguistiques affinés (LLMs). À l'aide de votre ensemble de données, le pilote automatique affine directement un LLM cible pour améliorer une métrique objective par défaut, la perte d'entropie croisée.

La perte d'entropie croisée est une métrique largement utilisée pour évaluer la dissimilitude entre la distribution de probabilité prévue et la distribution réelle des mots dans les données d'apprentissage. En minimisant la perte d'entropie croisée, le modèle apprend à faire des prédictions plus précises et pertinentes en fonction du contexte, en particulier dans les tâches liées à la génération de texte.

Après avoir affiné un LLM, vous pouvez évaluer la qualité du texte généré à l'aide d'une gamme de ROUGE scores. De plus, vous pouvez analyser la perplexité et les pertes d'entraînement et de validation par entropie croisée dans le cadre du processus d'évaluation.

La perte de perplexité mesure la capacité du modèle à prédire le mot suivant dans une séquence de texte, les valeurs les plus faibles indiquant une meilleure compréhension de la langue et du contexte.
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) est un ensemble de mesures utilisées dans le domaine du traitement du langage naturel (NLP) et de l'apprentissage automatique pour évaluer la qualité du texte généré par machine, tel que le résumé ou la génération de texte. Il évalue principalement les similitudes entre le texte généré et le texte de référence de base (écrit par l'homme) d'un ensemble de données de validation. ROUGE les mesures sont conçues pour évaluer divers aspects de la similitude des textes, notamment la précision et le rappel des n-grammes (séquences contiguës de mots) dans les textes générés par le système et les textes de référence. L'objectif est d'évaluer dans quelle mesure un modèle capture les informations présentes dans le texte de référence.

Il existe plusieurs variantes de ROUGE métriques, en fonction du type de n-grammes utilisé et des aspects spécifiques de la qualité du texte évalué.

La liste suivante contient le nom et la description du ROUGE métriques disponibles après le réglage précis de grands modèles linguistiques dans Autopilot.

ROUGE-1, ROUGE-2

ROUGE-N, le principal ROUGE métrique, mesure le chevauchement des n-grammes entre les textes générés par le système et les textes de référence. ROUGE-N peut être ajusté à différentes valeurs de n (ici 1 ou2) pour évaluer dans quelle mesure le texte généré par le système capture les n-grammes du texte de référence.

ROUGE-L

ROUGE-L (ROUGE-Longest Subséquence commune) calcule la plus longue sous-séquence commune entre le texte généré par le système et le texte de référence. Cette variante prend en compte l'ordre des mots en plus du chevauchement du contenu.

ROUGE-L-Sum

ROUGE-L-SUM (Longest Common Subsequence for Summarization) est conçu pour l'évaluation des systèmes de synthèse de texte. Il se concentre sur la mesure de la plus longue sous-séquence commune entre le résumé généré par machine et le résumé de référence. ROUGE-L-SUM prend en compte l'ordre des mots dans le texte, ce qui est important dans les tâches de synthèse de texte.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Hyperparamètres

Déploiement du modèle et prévisions