Metriken für die Feinabstimmung großer Sprachmodelle in Autopilot

Im folgenden Abschnitt werden die Metriken beschrieben, die Sie verwenden können, um Ihre fein abgestimmten großen Sprachmodelle zu verstehen (). LLMs Mithilfe Ihres Datensatzes optimiert Autopilot direkt ein Ziel, um eine standardmäßige Zielmetrik, den Cross-Entropie-Verlust, LLM zu verbessern.

Der Cross-Entropie-Verlust ist eine weit verbreitete Metrik, um die Unähnlichkeit zwischen der vorhergesagten Wahrscheinlichkeitsverteilung und der tatsächlichen Wortverteilung in den Trainingsdaten zu beurteilen. Durch die Minimierung des Cross-Entropie-Verlusts lernt das Modell, genauere und kontextuell relevantere Vorhersagen zu treffen, insbesondere bei Aufgaben im Zusammenhang mit der Textgenerierung.

Nach der Feinabstimmung können LLM Sie die Qualität des generierten Textes anhand einer Reihe von ROUGE Ergebnisse. Darüber hinaus können Sie im Rahmen des Bewertungsprozesses die Perplexitäts- und die Cross-Entropie-Trainings- und Validierungsverluste analysieren.

Der Verlust an Perplexität gibt an, wie gut das Modell das nächste Wort in einer Textsequenz vorhersagen kann. Niedrigere Werte bedeuten ein besseres Verständnis der Sprache und des Kontextes.
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) ist eine Reihe von Metriken, die im Bereich der Verarbeitung natürlicher Sprache (NLP) und des maschinellen Lernens verwendet werden, um die Qualität von maschinell generiertem Text zu bewerten, z. B. bei der Textzusammenfassung oder Textgenerierung. Dabei werden in erster Linie die Ähnlichkeiten zwischen dem generierten Text und dem (von Menschen geschriebenen) Ground-Truth-Referenztext eines Validierungsdatensatzes bewertet. ROUGE Maßnahmen dienen der Bewertung verschiedener Aspekte der Textähnlichkeit, einschließlich der Genauigkeit und des Erinnerungsvermögens von N-Grammen (zusammenhängende Wortfolgen) in systemgenerierten Texten und Referenztexten. Ziel ist es zu beurteilen, wie gut ein Modell die im Referenztext enthaltenen Informationen erfasst.

Es gibt mehrere Varianten von ROUGE Metriken, abhängig von der Art der verwendeten N-Gramme und den spezifischen Aspekten der zu bewertenden Textqualität.

Die folgende Liste enthält den Namen und die Beschreibung der ROUGE Metriken, die nach der Feinabstimmung umfangreicher Sprachmodelle in Autopilot verfügbar sind.

ROUGE-1, ROUGE-2

ROUGE-N, die primäre ROUGE Metrik, misst die Überlappung von N-Grammen zwischen den vom System generierten Texten und den Referenztexten. ROUGE-N kann an verschiedene Werte von n (hier 1 oder2) angepasst werden, um zu bewerten, wie gut der vom System generierte Text die N-Gramme aus dem Referenztext erfasst.

ROUGE-L

ROUGE-L (ROUGE-Longest Allgemeine Teilsequenz (Common Subsequence) berechnet die längste gemeinsame Teilsequenz zwischen dem vom System generierten Text und dem Referenztext. Diese Variante berücksichtigt zusätzlich zur inhaltlichen Überschneidung auch die Wortreihenfolge.

ROUGE-L-Sum

ROUGE-L-SUM (Longest Common Subsequence for Summarization) ist für die Evaluierung von Systemen zur Textzusammenfassung konzipiert. Es konzentriert sich auf die Messung der längsten gemeinsamen Teilsequenz zwischen der maschinell generierten Zusammenfassung und der Referenzzusammenfassung. ROUGE-L-SUM berücksichtigt die Reihenfolge der Wörter im Text, was bei der Textzusammenfassung wichtig ist.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Hyperparameter

Modellbereitstellung und Prognosen