Foundation-Modelle sind für die Feinabstimmung verfügbar Häufig unterstützte Feinabstimmung von Hyperparametern

Fundamentmodelle und Hyperparameter für die Feinabstimmung

Grundlagenmodelle sind rechenintensiv und werden auf einem großen, unbeschrifteten Datensatz trainiert. Die Feinabstimmung eines vortrainierten Grundlagenmodells ist eine kostengünstige Möglichkeit, die vielfältigen Funktionen des Modells zu nutzen und ein Modell gleichzeitig an Ihren eigenen kleinen Datensatz anzupassen. Die Feinabstimmung ist eine Anpassungsmethode, die weiteres Training erfordert und die Gewichtung Ihres Modells verändert.

Die Feinabstimmung kann für Sie nützlich sein, wenn:

Sie Ihr Modell an spezifische Geschäftsanforderungen anpassen müssen.
Ihr Modell erfolgreich mit domainspezifischer Sprache wie Branchenjargon, Fachbegriffen oder anderem Fachvokabular arbeiten soll.
Sie für bestimmte Aufgaben eine bessere Leistung benötigen.
Sie in Anwendungen genaue, relative und kontextsensitive Antworten benötigen.
Sie Antworten benötigen, die sachlicher, weniger toxisch und besser auf spezifische Anforderungen zugeschnitten sind.

Es gibt zwei Hauptansätze, die Sie je nach Anwendungsfall und ausgewähltem Grundlagenmodell für die Feinabstimmung wählen können.

Wenn Sie daran interessiert sind, Ihr Modell anhand domainspezifischer Daten zu optimieren, finden Sie weitere Informationen unter Feinabstimmung eines Large Language Model (LLM) mithilfe von Domänenanpassung.
Wenn Sie an einer anweisungsbasierten Feinabstimmung anhand von Beispielen für Eingabeaufforderungen und Antworten interessiert sind, finden Sie weitere Informationen unter Feinabstimmung eines Large Language Model (LLM) mithilfe von Eingabeaufforderungen.

Foundation-Modelle sind für die Feinabstimmung verfügbar

Sie können jedes der folgenden JumpStart Foundation-Modelle feinabstimmen:

Bloom 3B
Blüte 7B1
BloomZ 3B FP16
BloomZ 7 B1 FP16
Kode Lama 13B
Kode Llama 13B Python
Kode Llama 34B
Kode Llama 34B Python
Kode Llama 70B
Kode Llama 70B Python
Kode Llama 7B
Kode Llama 7B Python
CyberAgentLM2-7B-Chat (-7B-Chat) CALM2
Falke 40 B BF16
Falcon 40B, einweisen BF16
Falcon 7B BF16
Falcon 7B, instruieren BF16
Flan-T5-Basis
Flan-T5 Groß
Flan-T5 Klein
Flan-T5 XL
Flan-T5 XXL
Gemma 2 B.
Gemma 2B, Instruktiv
Gemma 7B
Gemma 7B, Instruktiv
GPT-2 XL
GPT-J 6B
GPT-Neo 1,3 B
GPT-Neo 125 M
GPT-NEO 2,7 B
LightGPT-Befehl 6B
Lama 2 13B
Lama 2 13B Chat
Lama 2 13B Neuron
Lama 2 70B
Lama 2 70B Chat
Lama 2 7B
Lama 2 7B Chat
Lama 2 7B Neuron
Mistral 7B
Mistral 8x7B
Mixtral 8x7B Instruktieren
RedPajama INCITE Basis 3B V1
RedPajama INCITE Basis 7B V1
RedPajama INCITE Chat 3B V1
RedPajama INCITE Chat 7B V1
RedPajama INCITE, instruiere 3B V1
RedPajama INCITE, Instruktiv 7B V1
Stabile Diffusion 2.1

Häufig unterstützte Feinabstimmung von Hyperparametern

Verschiedene Foundation-Modelle unterstützen bei der Feinabstimmung unterschiedliche Hyperparameter. Die folgenden Hyperparameter werden häufig unterstützt, mit denen Sie Ihr Modell während des Trainings weiter anpassen können:

Inferenzparameter	Beschreibung
`epoch`	Die Anzahl der Durchläufe, die das Modell während des Trainings durch den Datensatz zur Feinabstimmung durchläuft. Muss eine Ganzzahl größer als 1 sein.
`learning_rate`	Die Geschwindigkeit, mit der die Modellgewichte aktualisiert werden, nachdem die einzelnen Trainingsbeispiele zur Feinabstimmung durchgearbeitet wurden. Muss eine positive Gleitkommazahl größer als 0 sein.
`instruction_tuned`	Ob das Modell per Anweisung trainiert werden soll oder nicht. Es muss sich entweder um `'True'` oder `'False'` handeln.
`per_device_train_batch_size`	Die Batchgröße pro GPU-Kern oder CPU für das Training. Muss eine positive Ganzzahl sein.
`per_device_eval_batch_size`	Die Batchgröße pro GPU-Kern oder CPU für die Auswertung. Muss eine positive Ganzzahl sein.
`max_train_samples`	Kürzen Sie die Anzahl der Trainingsbeispiele zu Debugging-Zwecken oder für ein schnelleres Training auf diesen Wert. Der Wert -1 bedeutet, dass das Modell alle Trainingsproben verwendet. Muss eine positive Ganzzahl oder -1 sein.
`max_val_samples`	Kürzen Sie zu Debugging-Zwecken oder zur schnelleren Schulung die Anzahl der Validierungsbeispiele auf diesen Wert. Der Wert -1 bedeutet, dass das Modell alle Validierungsproben verwendet. Muss eine positive Ganzzahl oder -1 sein.
`max_input_length`	Maximale Gesamtlänge der Eingabesequenz nach der Tokenisierung. Sequenzen, die länger sind, werden gekürzt. Falls -1, `max_input_length` wird der Wert auf das Minimum von 1024 gesetzt und vom Tokenizer `model_max_length` definiert. Wenn auf einen positiven Wert gesetzt, `max_input_length` wird der Wert auf das Minimum des angegebenen und durch den Tokenizer `model_max_length` definierten Werts gesetzt. Muss eine positive Ganzzahl oder -1 sein.
`validation_split_ratio`	Wenn es keinen Validierungskanal gibt, wird das Verhältnis der Zugvalidierung von den Trainingsdaten getrennt. Muss zwischen 0 und 1 liegen.
`train_data_split_seed`	Wenn keine Validierungsdaten vorhanden sind, wird die zufällige Aufteilung der Eingabe-Trainingsdaten in die vom Modell verwendeten Trainings- und Validierungsdaten behoben. Muss eine Ganzzahl sein.
`preprocessing_num_workers`	Die Anzahl der Prozesse, die für die Vorverarbeitung verwendet werden sollen. Wenn`None`, wird der Hauptprozess für die Vorverarbeitung verwendet.
`lora_r`	LoRa-Wert (LoRa-Wert), der als Skalierungsfaktor für Gewichtsupdates dient. Muss eine positive Ganzzahl sein.
`lora_alpha`	LoRa-Alphawert (LoRa), der als Skalierungsfaktor für Gewichtsupdates dient. Im Allgemeinen das 2- bis 4-fache der Größe von. `lora_r` Muss eine positive Ganzzahl sein.
`lora_dropout`	Der Dropout-Wert für LoRa-Ebenen (LoRa-Ebenen) muss ein positiver Gleitkommawert zwischen 0 und 1 sein.
`int8_quantization`	Wenn das `True` Modell für das Training mit einer Genauigkeit von 8 Bit geladen wird.
`enable_fsdp`	Wenn beim `True` Training Fully Sharded Data Parallelism verwendet wird.

Sie können Hyperparameterwerte angeben, wenn Sie Ihr Modell in Studio feinabstimmen. Weitere Informationen finden Sie unter Optimieren Sie ein Modell in Studio.

Sie können bei der Feinabstimmung Ihres Modells mit dem SDK auch Standard-Hyperparameterwerte überschreiben. SageMaker Python Weitere Informationen finden Sie unter Die Feinabstimmung öffentlich verfügbarer Foundation-Modelle mithilfe der Klasse JumpStartEstimator.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Prompt-Engineering

Optimieren Sie ein Modell mithilfe von Domänenanpassung