Metriken für die Feinabstimmung großer Sprachmodelle in Autopilot - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Metriken für die Feinabstimmung großer Sprachmodelle in Autopilot

Mit Ihrem Datensatz optimiert Autopilot direkt ein Zielsprachenmodell (LLM), um eine standardmäßige Zielmetrik, den Cross-Entropie-Verlust, zu verbessern.

Der Cross-Entropie-Verlust ist eine weit verbreitete Metrik, um die Unähnlichkeit zwischen der vorhergesagten Wahrscheinlichkeitsverteilung und der tatsächlichen Wortverteilung in den Trainingsdaten zu beurteilen. Durch die Minimierung des Cross-Entropie-Verlusts lernt das Modell, genauere und kontextuell relevantere Vorhersagen zu treffen, insbesondere bei Aufgaben im Zusammenhang mit der Textgenerierung.

Nach der Feinabstimmung eines LLM können Sie die Qualität des generierten Textes anhand einer Reihe von Punktzahlen bewerten. ROUGE Darüber hinaus können Sie im Rahmen des Bewertungsprozesses die Perplexitäts- und die Cross-Entropie-Trainings- und Validierungsverluste analysieren.

  • Der Verlust an Perplexität gibt an, wie gut das Modell das nächste Wort in einer Textsequenz vorhersagen kann. Niedrigere Werte bedeuten ein besseres Verständnis der Sprache und des Kontextes.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE)ist eine Reihe von Metriken, die im Bereich der Verarbeitung natürlicher Sprache (NLP) und des maschinellen Lernens verwendet werden, um die Qualität von maschinell generiertem Text zu bewerten, z. B. bei der Textzusammenfassung oder Textgenerierung. Dabei werden in erster Linie die Ähnlichkeiten zwischen dem generierten Text und dem (von Menschen geschriebenen) Ground-Truth-Referenztext eines Validierungsdatensatzes bewertet. ROUGEDie Maßnahmen dienen der Bewertung verschiedener Aspekte der Textähnlichkeit, einschließlich der Genauigkeit und des Erinnerungsvermögens von N-Grammen (zusammenhängende Wortfolgen) in den vom System generierten Texten und Referenztexten. Ziel ist es zu beurteilen, wie gut ein Modell die im Referenztext enthaltenen Informationen erfasst.

    Abhängig von der Art der verwendeten N-Gramme und den spezifischen Aspekten der zu bewertenden Textqualität gibt es verschiedene Varianten von ROUGE Metriken.

    Die folgende Liste enthält den Namen und die Beschreibung der ROUGE Metriken, die nach der Feinabstimmung großer Sprachmodelle in Autopilot verfügbar sind.

    ROUGE-1, ROUGE-2

    ROUGE-N, die primäre ROUGE Metrik, misst die Überlappung von N-Grammen zwischen den vom System generierten Texten und den Referenztexten. ROUGE-Nkann auf verschiedene Werte von n (hier 1 oder2) angepasst werden, um zu bewerten, wie gut der vom System generierte Text die N-Gramme aus dem Referenztext erfasst.

    ROUGE-L

    ROUGE-L(ROUGE-LongestGemeinsame Teilsequenz) berechnet die längste gemeinsame Teilsequenz zwischen dem vom System generierten Text und dem Referenztext. Diese Variante berücksichtigt zusätzlich zur inhaltlichen Überschneidung auch die Wortreihenfolge.

    ROUGE-L-Sum

    ROUGE-L-SUM(Longest Common Subsequence for Summarization) ist für die Evaluierung von Systemen zur Textzusammenfassung konzipiert. Es konzentriert sich auf die Messung der längsten gemeinsamen Teilsequenz zwischen der maschinell generierten Zusammenfassung und der Referenzzusammenfassung. ROUGE-L-SUMberücksichtigt die Reihenfolge der Wörter im Text, was bei der Textzusammenfassung wichtig ist.