Beeinflussen Sie die Antwortgenerierung mit Inferenzparametern

Beim Ausführen der Modellinferenz können Sie die Inferenzparameter anpassen, um die Modellreaktion zu beeinflussen. Inferenzparameter können den Pool möglicher Ausgaben ändern, die das Modell bei der Generierung berücksichtigt, oder sie können die endgültige Antwort einschränken.

Die Standardwerte und Bereiche der Inferenzparameter hängen vom Modell ab. Weitere Informationen zu Inferenzparametern für verschiedene Modelle finden Sie unter. Inferenzanforderungsparameter und Antwortfelder für Foundation-Modelle

Die folgenden Kategorien von Parametern kommen häufig in verschiedenen Modellen vor:

Zufälligkeit und Diversität

Ein Modell bestimmt für jede gegebene Sequenz eine Wahrscheinlichkeitsverteilung der Optionen für das nächste Token in der Sequenz. Das Modell verwendet Stichproben aus dieser Verteilung, um jedes Token in einer Ausgabe zu generieren. Zufälligkeit und Diversität bezeichnen den Umfang an Variationen in der Antwort eines Modells. Sie können diese Faktoren steuern, indem Sie die Verteilung einschränken oder anpassen. Basismodelle unterstützen in der Regel die folgenden Parameter, um die Zufälligkeit und Diversität der Antwort zu kontrollieren.

Temperatur: Wirkt sich auf die Form der Wahrscheinlichkeitsverteilung für die vorhergesagte Ausgabe aus und beeinflusst die Wahrscheinlichkeit, dass das Modell Ergebnisse mit niedrigerer Wahrscheinlichkeit auswählt.
- Wählen Sie einen niedrigeren Wert, um das Modell zur Auswahl von Ergebnissen mit höherer Wahrscheinlichkeit zu bewegen.
- Wählen Sie einen höheren Wert, um das Modell zur Auswahl von Ergebnissen mit niedrigerer Wahrscheinlichkeit zu bewegen.
Technisch gesehen moduliert die Temperatur die Wahrscheinlichkeitsmassenfunktion für das nächste Token. Eine niedrigere Temperatur verschärft die Funktion und führt zu deterministischeren Antworten, und eine höhere Temperatur flacht die Funktion ab und führt zu zufälligeren Antworten.
Top K: Die Anzahl der wahrscheinlichsten Kandidaten, die das Modell für das nächste Token in Erwägung zieht.
- Wählen Sie einen niedrigeren Wert, um die Größe des Pools zu verringern und die Optionen auf wahrscheinlichere Ausgaben zu beschränken.
- Wählen Sie einen höheren Wert, um den Pool zu vergrößern und dem Modell zu ermöglichen, weniger wahrscheinliche Ausgaben in Erwägung zu ziehen.
Wenn Sie beispielsweise den Wert 50 für Top K auswählen, trifft das Modell eine Auswahl unter den 50 wahrscheinlichsten Token, die in der Sequenz als Nächstes stehen könnten.
Top K: Der Prozentsatz der wahrscheinlichsten Kandidaten, die das Modell für das nächste Token in Erwägung zieht.
- Wählen Sie einen niedrigeren Wert, um die Größe des Pools zu verringern und die Optionen auf wahrscheinlichere Ausgaben zu beschränken.
- Wählen Sie einen höheren Wert, um den Pool zu vergrößern und dem Modell zu ermöglichen, weniger wahrscheinliche Ausgaben in Erwägung zu ziehen.
Technisch gesehen berechnet das Modell die kumulative Wahrscheinlichkeitsverteilung für die Gruppe der Antworten und berücksichtigt nur die obersten P% der Verteilung.

Wenn Sie beispielsweise den Wert 0,8 für Top P auswählen, trifft das Modell eine Auswahl unter den oberen 80 % der Wahrscheinlichkeitsverteilung an Token, die in der Sequenz als Nächstes stehen könnten.

In der folgenden Tabelle werden die Auswirkungen dieser Parameter zusammengefasst.

Parameter	Auswirkung eines niedrigeren Werts	Auswirkung eines höheren Werts
Temperatur	Erhöhung der Wahrscheinlichkeit von Token mit höherer Wahrscheinlichkeit Verringerung der Wahrscheinlichkeit von Token mit geringerer Wahrscheinlichkeit	Erhöhung der Wahrscheinlichkeit von Token mit geringerer Wahrscheinlichkeit Verringerung der Wahrscheinlichkeit von Token mit höherer Wahrscheinlichkeit
Top-K	Entfernung von Token mit geringerer Wahrscheinlichkeit	Zulassung von Token mit geringerer Wahrscheinlichkeit
Top-P	Entfernung von Token mit geringerer Wahrscheinlichkeit	Zulassung von Token mit geringerer Wahrscheinlichkeit

Sehen Sie sich die Beispielaufforderung I hear the hoof beats of " an, um sich mit diesen Parameter vertraut zu machen. Nehmen wir an, das Modell bestimmt die folgenden drei Wörter als Kandidaten für das nächste Token. Das Modell weist jedem Wort außerdem eine Wahrscheinlichkeit zu.


{
    "horses": 0.7,
    "zebras": 0.2,
    "unicorns": 0.1
}

Wenn Sie eine hohe Temperatur festlegen, wird die Wahrscheinlichkeitsverteilung flacher und die Wahrscheinlichkeiten werden undifferenzierter, was die Wahrscheinlichkeit der Wahl von „Einhörnern“ erhöhen und die Wahrscheinlichkeit der Wahl von „Pferden“ verringern würde.
Wenn Sie Top K auf 2 festlegen, berücksichtigt das Modell nur die beiden wahrscheinlichsten Kandidaten: „Pferde“ und „Zebras“.
Wenn Sie Top P auf 0,7 festlegen, berücksichtigt das Modell nur „Pferde“, da dies der einzige Kandidat ist, der in der Wahrscheinlichkeitsverteilung zu den obersten 70% gehört. Wenn Sie Top P auf 0,9 festlegen, berücksichtigt das Modell „Pferde“ und „Zebras“, da sie zu den oberen 90% der Wahrscheinlichkeitsverteilung gehören.

Länge

Basismodelle unterstützen in der Regel die Parameter, mit denen die Länge der Antworten begrenzen. Im Folgenden finden Sie Beispiele für diese Parameter.

Antwortlänge: Ein genauer Wert zur Angabe der Höchst- und Mindestzahl an Token, die in der generierten Antwort zurückgegeben werden sollen.
Strafen: Geben Sie an, inwiefern Strafen auf die Ausgaben in einer Antwort angewendet werden sollen. Beispiele sind unter anderem:
- Die Länge der Antwort.
- Wiederholte Token in einer Antwort.
- Häufigkeit von Token in einer Antwort.
- Arten von Token in einer Antwort.
Stoppsequenzen: Geben Sie Zeichenfolgen an, die das Modell daran hindern, weitere Token zu generieren. Wenn das Modell eine von Ihnen angegebene Stoppsequenz generiert, wird die Generierung nach dieser Sequenz beendet.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Wie funktioniert Inferenz

Unterstützte Regionen und Modelle