Datasets-Dateitypen Format der Eingabedaten

Datensatz-Dateitypen und Eingabedatenformat

Bei der anweisungsbasierten Feinabstimmung werden beschriftete Datensätze verwendet, um die Leistung von vortrainierten Aufgaben zur Verarbeitung natürlicher Sprache (NLP) zu verbessern. LLMs Die beschrifteten Beispiele sind als Paare zwischen Aufforderung und Antwort formatiert und als Anweisungen formuliert.

Weitere Informationen zu den unterstützten Datensatz-Dateitypen finden Sie unter Unterstützte Dataset-Dateitypen.

Weitere Informationen zum Eingabedatenformat finden Sie unter Eingabedatenformat für die anweisungsbasierte Feinabstimmung.

Unterstützte Dataset-Dateitypen

Autopilot unterstützt anweisungsbasierte Feinabstimmungsdatensätze, die als CSV-Dateien (Standard) oder als Parquet-Dateien formatiert sind.

CSV (kommagetrennte Werte) ist ein zeilenbasiertes Dateiformat, das Daten in für Menschen lesbarem Klartext speichert. Dies ist eine beliebte Wahl für den Datenaustausch, da es von einer Vielzahl von Anwendungen unterstützt wird.
Parquet ist ein binäres, spaltenbasiertes Dateiformat, bei dem die Daten effizienter gespeichert und verarbeitet werden als in menschenlesbaren Dateiformaten wie CSV. Dies macht es zu einer besseren Option für Big-Data-Probleme.

Anmerkung

Der Datensatz kann aus mehreren Dateien bestehen, von denen jede einer bestimmten Vorlage entsprechen muss. Informationen zum Formatieren Ihrer Eingabedaten finden Sie unter Eingabedatenformat für die anweisungsbasierte Feinabstimmung.

Eingabedatenformat für die anweisungsbasierte Feinabstimmung

Jede Datei im Datensatz muss dem folgenden Format entsprechen:

Der Datensatz muss genau zwei durch Kommas getrennte und benannte Spalten enthalten: input und output. Autopilot erlaubt keine zusätzlichen Spalten.
Die input-Spalten enthalten die Eingabeaufforderungen und die entsprechende output-Spalte enthält die erwartete Antwort. Sowohl die input als auch die output sind im Zeichenfolgenformat.

Das folgende Beispiel verdeutlicht das Eingabedatenformat für die anweisungsbasierte Feinabstimmung in Autopilot.


input,output
"<prompt text>","<expected generated text>"

Anmerkung

Wir empfehlen die Verwendung von Datensätzen mit mindestens 1000 Zeilen, um ein optimales Lernen und eine optimale Leistung des Modells zu gewährleisten.

Darüber hinaus legt Autopilot je nach Art des verwendeten Modells eine Obergrenze für die Anzahl der Zeilen im Datensatz und die Kontextlänge fest.

Die Beschränkungen für die Anzahl der Zeilen in einem Datensatz gelten für die Gesamtzahl der Zeilen in allen Dateien innerhalb des Datensatzes, einschließlich mehrerer Dateien. Wenn zwei Kanaltypen definiert sind (einer für das Training und einer für die Validierung), gilt der Grenzwert für die Gesamtzahl der Zeilen in allen Datensätzen in beiden Kanälen. Wenn die Anzahl der Zeilen den Schwellenwert überschreitet, schlägt der Job mit einem Validierungsfehler fehl.
Wenn die Länge der Eingabe oder Ausgabe einer Zeile im Datensatz die im Kontext des Sprachmodells festgelegte Grenze überschreitet, wird sie automatisch gekürzt. Wenn mehr als 60 % der Zeilen im Datensatz gekürzt werden, unabhängig davon, ob es sich um die Eingabe oder Ausgabe handelt, bricht Autopilot den Job mit einem Validierungsfehler ab.

In der folgenden Tabelle sind diese Grenzen für jedes Modell aufgeführt.

JumpStart Modell-ID	`BaseModelName` in der API-Anfrage.	Zeilenlimit	Limit für die Kontextlänge
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	10.000 Zeilen	1024 Tokens
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	10.000 Zeilen	1024 Tokens
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	10.000 Zeilen	1024 Tokens
huggingface-llm-falcon-7b-bf16	`Falcon7B`	1.000 Zeilen	1024 Tokens
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	1.000 Zeilen	1024 Tokens
huggingface-llm-falcon-40b-bf16	`Falcon40B`	10.000 Zeilen	1024 Tokens
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	10.000 Zeilen	1024 Tokens
huggingface-text2text-flan-t5-large	`FlanT5L`	10.000 Zeilen	1024 Tokens
huggingface-text2text-flan-t5-xl	`FlanT5XL`	10.000 Zeilen	1024 Tokens
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	10.000 Zeilen	1024 Tokens
meta-textgeneration-llama-2-7b	`Llama2-7B`	10.000 Zeilen	2048 Tokens
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	10.000 Zeilen	2048 Tokens
meta-textgeneration-llama-2-13b	`Llama2-13B`	7.000 Zeilen	2048 Tokens
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	7.000 Zeilen	2048 Tokens
huggingface-llm-mistral-7b	`Mistral7B`	10.000 Zeilen	2048 Tokens
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	10.000 Zeilen	2048 Tokens
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	10.000 Zeilen	1024 Tokens
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	10.000 Zeilen	1024 Tokens

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Unterstützte Modelle

Hyperparameter