SageMaker Ausbildungsjobs im Bereich KI - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker Ausbildungsjobs im Bereich KI

Die Anpassung von Amazon Nova-Modellen Amazon SageMaker Training Jobs folgt einem strukturierten Workflow, der den komplexen Prozess der Feinabstimmung großer Sprachmodelle vereinfachen soll. Dieser end-to-end Workflow umfasst das Training, die Evaluierung und den Einsatz von Modellen zu Inferenzzwecken. Weitere Informationen finden Sie unter Anpassen von Amazon Nova-Modellen im Amazon SageMaker AI Developer Guide.

Mit Amazon SageMaker AI können Sie bestehende vortrainierte Basismodelle wie Amazon Nova verfeinern, ohne Ihre eigenen Modelle von Grund auf neu trainieren zu müssen. In den folgenden Abschnitten werden die Feinabstimmungsoptionen in SageMaker KI bei der Arbeit mit Amazon Nova Foundation-Modellen detailliert beschrieben.

Feinabstimmung in vollem Umfang

Bei der umfassenden Feinabstimmung werden alle Parameter des Fundamentmodells geändert, um die Leistung für bestimmte Aufgaben oder Bereiche zu optimieren. Dieser umfassende Ansatz aktualisiert die gesamte Modellarchitektur und ermöglicht tiefere Anpassungen als bei adapterbasierten Methoden. Weitere Informationen finden Sie unter Feinabstimmung von Fundamentmodellen.

So funktioniert die Feinabstimmung mit vollem Rang

Bei der Feinabstimmung mit vollem Rang lernt das Modell, indem es alle Parameter anhand Ihrer Trainingsdaten aktualisiert. Dieser Prozess der Feinabstimmung auf ganzer Linie:

  • Ermöglicht es dem Modell, Fachwissen für Ihr Fachgebiet zu entwickeln.

  • Ermöglicht signifikante Änderungen an den dem Modell zugrunde liegenden Repräsentationen.

  • Erfordert im Vergleich zu adapterbasierten Methoden mehr Rechenressourcen, kann aber eine bessere aufgabenspezifische Leistung erzielen.

Wann sollte man sich für eine umfassende Feinabstimmung entscheiden

In den folgenden Szenarien empfehlen wir die vollständige Feinabstimmung:

  • Wenn die LoRa PEFT-Feinabstimmung nicht das gewünschte Leistungsniveau erreicht.

  • Für spezialisierte Bereiche, die fundiertes Fachwissen erfordern (z. B. medizinische, juristische oder technische Bereiche).

  • Wenn Sie über große, qualitativ hochwertige Datensätze für Ihren Anwendungsfall verfügen.

  • Wenn Genauigkeitsanforderungen die Überlegungen zu den Rechenkosten überwiegen.

  • Für Anwendungen, die eine erhebliche Abweichung vom Verhalten des Basismodells erfordern.

Feinabstimmung von Adaptern mit niedrigem Rang

Die effektivste und kostengünstigste Methode zur Verbesserung der Leistung des Basismodells ist die parametereffiziente Feinabstimmung von Adaptern mit geringem Rang (LoRa PEFT). Das Grundprinzip von LoRa PEFT besteht darin, dass nur eine geringe Anzahl zusätzlicher Gewichte aktualisiert werden muss, um sie an neue Aufgaben oder Bereiche anzupassen.

LoRa PEFT optimiert grundlegende Modelle effizient, indem trainierbare Gewichtsmatrizen mit niedrigem Rang in spezifische Modellebenen eingeführt werden, wodurch die Anzahl der trainierbaren Parameter reduziert wird, während die Modellqualität erhalten bleibt. Ein LoRa-PEFT-Adapter erweitert das Basismodell um leichte Adapterschichten, die die Gewichte des Modells während der Inferenz modifizieren und gleichzeitig die ursprünglichen Modellparameter beibehalten. Dieser Ansatz wird auch als eine der kostengünstigsten Feinabstimmungstechniken angesehen. Weitere Informationen finden Sie unter Feinabstimmung von Modellen mit Adapter-Inferenzkomponenten.

Wann sollte man LoRa PEFT wählen

Wir empfehlen die Verwendung von LoRa PEFT in den folgenden Szenarien:

  • Sie sollten generell mit LoRa PEFT beginnen und nicht mit anderen Methoden zur Feinabstimmung, da es sich um ein schnelles Trainingsverfahren handelt.

  • LoRa PEFT ist in Fällen wirksam, in denen die Leistung des Basismodells bereits zufriedenstellend ist. In diesem Fall besteht das Ziel von LoRa PEFT darin, seine Fähigkeiten für mehrere verwandte Aufgaben wie Textzusammenfassung oder Sprachübersetzung zu verbessern. Die Regularisierungseigenschaften von LoRa PEFT tragen auch dazu bei, Überanpassungen zu verhindern und das Risiko zu verringern, dass das Modell die Quelldomäne „vergisst“. Dadurch wird sichergestellt, dass das Modell vielseitig und an verschiedene Anwendungen anpassbar bleibt.

  • Sie können LoRa PEFT für Szenarien zur Feinabstimmung von Anweisungen mit relativ kleinen Datensätzen verwenden. LoRa PEFT schneidet bei kleineren, aufgabenspezifischen Datensätzen besser ab als bei breiteren, größeren Datensätzen.

  • Für große, beschriftete Datensätze, die die Datenlimits für Amazon Bedrock-Anpassungen überschreiten, können Sie LoRa PEFT on SageMaker AI verwenden, um bessere Ergebnisse zu erzielen.

  • Wenn Sie durch die Feinabstimmung von Amazon Bedrock bereits vielversprechende Ergebnisse erzielt haben, kann LoRa PEFT on SageMaker AI Ihnen helfen, die Modell-Hyperparameter weiter zu optimieren.

Direkte Präferenzoptimierung

Die direkte Präferenzoptimierung (DPO) ist eine effiziente Methode zur Feinabstimmung von Basismodellen, bei der gepaarte Vergleichsdaten verwendet werden, um die Modellergebnisse mit menschlichen Präferenzen in Einklang zu bringen. Dieser Ansatz ermöglicht die direkte Optimierung des Modellverhaltens auf der Grundlage von menschlichem Feedback darüber, welche Reaktionen wünschenswerter sind.

Warum DPO wichtig ist

Foundation-Modelle, die auf umfangreichen Daten trainiert wurden, führen häufig zu Ergebnissen, die zwar sachlich korrekt sind, aber nicht den spezifischen Benutzerbedürfnissen, Unternehmenswerten oder Sicherheitsanforderungen entsprechen. DPO schließt diese Lücke, indem es Ihnen Folgendes ermöglicht:

  • Passen Sie die Modelle an die gewünschten Verhaltensmuster an.

  • Reduzieren Sie unerwünschte Ausgaben oder schädliche Reaktionen.

  • Stimmen Sie die Antworten der Modelle mit den Richtlinien für Markensprache und Kommunikation ab.

  • Verbessern Sie die Antwortqualität auf der Grundlage des Feedbacks von Fachexperten.

Wie funktioniert DPO

DPO verwendet paarweise Beispiele, bei denen menschliche Gutachter angeben, welche von zwei möglichen Antworten bevorzugt wird. Das Modell lernt, die Wahrscheinlichkeit, bevorzugte Antworten zu erhalten, zu maximieren und gleichzeitig unerwünschte zu minimieren. Sie können DPO mithilfe einer der folgenden Techniken implementieren:

  • DPO mit vollem Rang: Aktualisiert alle Modellparameter, um die bevorzugten Antworten zu optimieren.

  • LoRa-basierter DPO: Verwendet schlanke Adapter, um Präferenzausrichtungen zu erlernen, wodurch weniger Rechenressourcen benötigt werden.

Wann sollte man DPO wählen

Wir empfehlen die Verwendung von DPO in den folgenden Szenarien:

  • Optimierung für subjektive Ergebnisse, die eine Anpassung an spezifische menschliche Präferenzen erfordern.

  • Anpassung des Tonfalls, des Stils oder der inhaltlichen Merkmale des Modells an die gewünschten Reaktionsmuster.

  • Vornahme gezielter Verbesserungen an einem bestehenden Modell auf der Grundlage von Benutzerfeedback und Fehleranalysen.

  • Beibehaltung einer gleichbleibenden Ausgabequalität in verschiedenen Anwendungsfällen.

  • Implementierung von Sicherheitsleitplanken durch bevorzugte Reaktionsmuster.

  • Schulung mit belohnungsfreiem Reinforcement-Learning.

  • Es werden nur Präferenzdaten anstelle von benoteten oder gekennzeichneten Daten verwendet.

  • Verbesserung des Modells bei nuancierten Ausrichtungsaufgaben wie Hilfsbereitschaft, Harmlosigkeit oder Ehrlichkeit

DPO ist effektiv, um das Modellverhalten anhand sorgfältig kuratierter Präferenzdatensätze, die erwünschte und unerwünschte Ergebnisse zeigen, iterativ zu verfeinern. Die Flexibilität der Methode bei der Unterstützung von Full-Rank- und LoRa-basierten Ansätzen ermöglicht es Ihnen, die am besten geeignete Implementierung auf der Grundlage Ihrer Rechenressourcen und spezifischen Anforderungen auszuwählen.

Destillation

Die Modelldestillation ist eine Methode, die Wissen von großen, fortschrittlichen Modellen auf kleinere, effiziente Modelle überträgt. Bei Amazon Nova-Modellen gibt ein größeres „Lehrer“ -Modell (wie Amazon Nova Pro oder Amazon Nova Premier) seine Funktionen an ein kleineres „Schüler“ -Modell (wie Amazon Nova Lite oder Amazon Nova Micro) weiter. Dadurch entsteht ein maßgeschneidertes Modell, das eine hohe Leistung beibehält und gleichzeitig weniger Ressourcen verbraucht.

Informationen dazu, wie Sie dies mithilfe von SageMaker AI Training Jobs abschließen können, finden Sie unter Amazon Nova-Destillation.