Datensatz-Dateitypen und Eingabedatenformat - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datensatz-Dateitypen und Eingabedatenformat

Bei der anweisungsbasierten Feinabstimmung werden beschriftete Datensätze verwendet, um die Leistung von vortrainierten LLMs bei bestimmten Aufgaben der natürlichen Sprachverarbeitung (NLP) zu verbessern. Die beschrifteten Beispiele sind als Prompt-Response-Paare formatiert und als Anweisungen formuliert.

Weitere Informationen zu den unterstützten Datensatz-Dateitypen finden Sie unter Unterstützte Dataset-Dateitypen.

Weitere Informationen zum Eingabedatenformat finden Sie unter Eingabedatenformat für die anweisungsbasierte Feinabstimmung.

Unterstützte Dataset-Dateitypen

Autopilot unterstützt anweisungsbasierte Feinabstimmungsdatensätze, die als CSV-Dateien (Standard) oder als Parquet-Dateien formatiert sind.

  • CSV (kommagetrennte Werte) ist ein zeilenbasiertes Dateiformat, das Daten in für Menschen lesbarem Klartext speichert. Dies ist eine beliebte Wahl für den Datenaustausch, da es von einer Vielzahl von Anwendungen unterstützt wird.

  • Parquet ist ein binäres, spaltenbasiertes Dateiformat, bei dem die Daten effizienter gespeichert und verarbeitet werden als in menschenlesbaren Dateiformaten wie CSV. Dies macht es zu einer besseren Option für Big-Data-Probleme.

Anmerkung

Der Datensatz kann aus mehreren Dateien bestehen, von denen jede einer bestimmten Vorlage entsprechen muss. Informationen zum Formatieren Ihrer Eingabedaten finden Sie unter Eingabedatenformat für die anweisungsbasierte Feinabstimmung.

Eingabedatenformat für die anweisungsbasierte Feinabstimmung

Jede Datei im Datensatz muss dem folgenden Format entsprechen:

  • Der Datensatz muss genau zwei durch Kommas getrennte und benannte Spalten enthalten: input und output. Autopilot erlaubt keine zusätzlichen Spalten.

  • Die input-Spalten enthalten die Eingabeaufforderungen und die entsprechende output-Spalte enthält die erwartete Antwort. Sowohl die input als auch die output sind im Zeichenfolgenformat.

Das folgende Beispiel verdeutlicht das Eingabedatenformat für die anweisungsbasierte Feinabstimmung in Autopilot.

input,output "<prompt text>","<expected generated text>"
Anmerkung

Wir empfehlen die Verwendung von Datensätzen mit mindestens 1000 Zeilen, um ein optimales Lernen und eine optimale Leistung des Modells zu gewährleisten.

Darüber hinaus legt Autopilot je nach Art des verwendeten Modells eine Obergrenze für die Anzahl der Zeilen im Datensatz und die Kontextlänge fest.

  • Die Beschränkungen für die Anzahl der Zeilen in einem Datensatz gelten für die Gesamtzahl der Zeilen in allen Dateien innerhalb des Datensatzes, einschließlich mehrerer Dateien. Wenn zwei Kanaltypen definiert sind (einer für das Training und einer für die Validierung), gilt der Grenzwert für die Gesamtzahl der Zeilen in allen Datensätzen in beiden Kanälen. Wenn die Anzahl der Zeilen den Schwellenwert überschreitet, schlägt der Job mit einem Validierungsfehler fehl.

  • Wenn die Länge der Eingabe oder Ausgabe einer Zeile im Datensatz die im Kontext des Sprachmodells festgelegte Grenze überschreitet, wird sie automatisch gekürzt. Wenn mehr als 60 % der Zeilen im Datensatz gekürzt werden, unabhängig davon, ob es sich um die Eingabe oder Ausgabe handelt, bricht Autopilot den Job mit einem Validierungsfehler ab.

In der folgenden Tabelle sind diese Grenzen für jedes Modell aufgeführt.

JumpStart Modell-ID BaseModelName in der API-Anfrage. Zeilenlimit Limit für die Kontextlänge
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B 10.000 Zeilen 1024 Tokens
huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B 10.000 Zeilen 1024 Tokens
huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B 10.000 Zeilen 1024 Tokens
huggingface-llm-falcon-7b-bf16 Falcon7B 1.000 Zeilen 1024 Tokens
huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct 1.000 Zeilen 1024 Tokens
huggingface-llm-falcon-40b-bf16 Falcon40B 10.000 Zeilen 1024 Tokens
huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct 10.000 Zeilen 1024 Tokens
huggingface-text2text-flan-t5-large FlanT5L 10.000 Zeilen 1024 Tokens
huggingface-text2text-flan-t5-xl FlanT5XL 10.000 Zeilen 1024 Tokens
huggingface-text2text-flan-t5-xxll FlanT5XXL 10.000 Zeilen 1024 Tokens
meta-textgeneration-llama-2-7b Llama2-7B 10.000 Zeilen 2048 Tokens
meta-textgeneration-llama-2-7b-f Llama2-7BChat 10.000 Zeilen 2048 Tokens
meta-textgeneration-llama-2-13b Llama2-13B 7.000 Zeilen 2048 Tokens
meta-textgeneration-llama-2-13b-f Llama2-13BChat 7.000 Zeilen 2048 Tokens
huggingface-llm-mistral-7b Mistral7B 10.000 Zeilen 2048 Tokens
huggingface-llm-mistral-7b-instruct Mistral7BInstruct 10.000 Zeilen 2048 Tokens
huggingface-textgeneration1-mpt-7b-bf16 MPT7B 10.000 Zeilen 1024 Tokens
huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct 10.000 Zeilen 1024 Tokens