Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Fortsetzung des Vortrainings und der Trainingsmitte
Anmerkung
Eine ausführliche Dokumentation wird nach dem Abonnieren zur Verfügung gestellt
Nova Forge CPT bietet erweiterte Funktionen, die über das Standard-CPT hinausgehen, darunter den Zugriff auf zwischengeschaltete Checkpoints und die Datenmischung mit dem Nova-Vortrainingskorpus. Diese Funktionen ermöglichen eine effizientere Domänenanpassung und eine bessere Erhaltung der allgemeinen Fähigkeiten des Modells.
Was sind Zwischenkontrollpunkte und warum werden sie benötigt?
Zwischenprüfpunkte sind Schnappschüsse des Amazon Nova-Modells, die in verschiedenen Phasen der Vorschulung gespeichert wurden, bevor das Modell seinen endgültigen produktionsreifen Zustand erreicht. Während der Modellentwicklung durchläuft Amazon Nova mehrere Schulungsphasen: anfängliches Vortraining mit konstanter Lernrate, Erhöhung der Lernrate, Schulung zur Kontexterweiterung und schließlich Schulung zur Ausrichtung und Sicherheit nach Anweisungen. Bei CPT sind zwischengeschaltete Checkpoints oft dem finalen Prod-Checkpoint vorzuziehen, da sie plastischer und empfänglicher für Domainanpassungen sind. Der Prod-Checkpoint wurde einem umfassenden Angleichungs- und Sicherheitstraining unterzogen, bei dem die Anweisungen befolgt wurden. Dadurch wurde das Modell zwar für den allgemeinen Gebrauch in Konversationen optimiert, es ist jedoch möglicherweise resistent gegen das Erlernen neuer domänenspezifischer Muster während der CPT. Im Gegensatz dazu behalten Checkpoints, die nur teilweise oder vollständig vortrainierten Text enthalten, die Merkmale des Modells vor dem Training bei. Sie wurden nicht stark auf bestimmte Verhaltensweisen ausgerichtet, was sie zu effizienteren Ausgangspunkten für die Domänenanpassung macht. Bei der Durchführung umfangreicher CPT (>10B-Token) führt der Start von zwischengeschalteten Checkpoints in der Regel zu einer schnelleren Konvergenz, einer besseren Trainingsstabilität und einem effektiveren Erwerb von Fachwissen. Für CPT in kleinem Maßstab (<10 B-Token) oder wenn die Fähigkeit zur Befolgung von Anweisungen beibehalten werden muss, ist der Prod-Checkpoint jedoch möglicherweise besser geeignet, da er eine Domänenanpassung ermöglicht und gleichzeitig die Konversationsfähigkeit des Modells beibehält.
Für CPT sind mehrere Zwischenprüfpunkte erforderlich, da sie unterschiedliche Ebenen der Modellplastizität bieten, die beeinflussen, wie effizient das Modell neues Domänenwissen aufnehmen kann. Der letzte Prod-Checkpoint wurde einem umfassenden Angleichungs- und Sicherheitstraining unterzogen. Dadurch wurde er für allgemeine Konversationszwecke optimiert, ist aber resistent gegen das Erlernen neuer domänenspezifischer Muster. Mit anderen Worten, er wurde nach dem Training noch weiter verschärft. Im Gegensatz dazu haben frühere Checkpoints die Merkmale des Modells vor dem Training beibehalten und waren nicht stark auf bestimmte Verhaltensweisen ausgerichtet, wodurch sie plastischer und empfänglicher für Domänenanpassungen wurden.
Um die beste Trainingseffizienz zu erreichen, sind mehrere Zwischenkontrollpunkte vorgesehen.
Welche Checkpoints sind verfügbar?
Nova 1.0
Die Amazon Nova 1.0-Familie umfasst drei Modelle (Micro, Lite, Pro) und für jedes Modell sind drei Checkpoints verfügbar.
-
VORTRAINIERT — [
nova-<micro/lite/pro>/pretraining-text-partial]: Dies ist der Checkpoint nach der Phase der Amazon Nova-Vorschulung mit konstanter Lernrate, in der das Modell mit Billionen von Text-Token trainiert wird. -
MID-TRAINED — [
nova-<micro/lite/pro>/pretraining-text-full]: Dies ist der reine Text-Checkpoint, nachdem alle Phasen der Amazon Nova-Schulung vor und während der Schulung mit Billionen von Text-Token abgeschlossen sind. Verwenden Sie diese, wenn das Modell speziell keine multimodalen Daten hätte erfassen sollen. -
MID-TRAINED — [
nova-<lite/pro>/pretraining-mm-full]: Dies ist der Checkpoint, nachdem alle Phasen der Amazon Nova-Schulung vor und während des Trainings, einschließlich multimodaler Daten, mit Billionen von Tokens verarbeitet wurden. -
POST-TRAINING — [
nova-<micro/lite/pro>/prod]: Dies ist der vollständig abgestimmte letzte Checkpoint des Modells, das alle Schritte vor und nach dem Training durchlaufen hat.
Nova 2.0
Es gibt drei Amazon Nova Lite 2.0-Checkpoints.
-
VORTRAINIERT — [
nova-lite-2/pretraining-text-RD]: Dies ist der Checkpoint nach der konstanten Lernrate und den Ramp-Down-Phasen der Amazon Nova-Vorschulung, bei der das Modell mit Billionen von Tokens trainiert wird. -
MITTELTRAINIERT — [
nova-lite-2/pretraining-text-CE]: Dieser Checkpoint ermöglicht die Einführung von Zwischenmengen unstrukturierter Daten mit einer konservativeren Lernrate als vor dem Training, wodurch domänenspezifisches Wissen aufgenommen und gleichzeitig katastrophales Vergessen vermieden wird. -
POST-TRAINED — [
nova-lite-2/prod]: Dies ist der vollständig abgestimmte letzte Prüfpunkt des Modells, das alle zugehörigen Schritte und Schritte nach der Schulung durchlaufen hat.
In der folgenden Tabelle werden die verschiedenen Bedingungen für die Dauer des Trainings vor und während des Trainings näher erläutert.
Datentyp |
Durchführen |
Mit Checkpoint |
|---|---|---|
Umfangreiche unstrukturierte Domain-Rohdaten (Dokumente, Protokolle, Artikel, Code usw.) |
Fortsetzung der Vorschulung |
Vortrainiert |
Umfangreiche unstrukturierte Domain-Rohdaten (Dokumente, Protokolle, Artikel, Code usw.) |
Mitten im Training |
Vortrainiert |
Kleinere Mengen unstrukturierter Rohdaten. Spuren strukturierter Argumentationen/CoT-Daten |
Mitten im Training |
Mitten trainiert |
Strukturierte Demonstrationen (hochwertige Input-Output-Paare, kuratierte Aufgabenanweisungen, Multi-Turn-Dialoge) |
Vollständige Feinabstimmung |
Mittelmäßig trainiert |
Strukturierte Demonstrationen (hochwertige Input-Output-Paare, kuratierte Aufgabenanweisungen, Multi-Turn-Dialoge) |
Effiziente Feinabstimmung der Parameter |
Nach dem Training |
Welcher Checkpoint soll verwendet werden?
Checkpoints mit nur teilweise vortrainiertem Text und vollständig vortrainiertem Nur-Text-Checkpoint laufen in der Regel schneller zusammen und erfordern weniger Trainingsschritte für die Domänenanpassung. Sie verfügen jedoch nicht über eine Anpassung der Anweisungen und müssten nach dem Training weitere Schritte durchlaufen, um nützliche Aufgaben ausführen und Anweisungen befolgen zu können. Der GA-Checkpoint erfordert möglicherweise mehr Anpassungsschritte, bietet jedoch einen sichereren Ausgangspunkt für Experimente in kleinem Maßstab und bietet auch nach der CPT-Schulung einige seiner Funktionen nach dem Training.
Im Allgemeinen sollten Sie bei großen Trainingsdatensätzen (>10B-Token) mit Checkpoints beginnen, die nur teilweise oder nur vollständig vortrainierten Text enthalten, um ein effizienteres und stabileres Training zu erreichen, da die Wissensbasis des Modells erheblich verändert wird. Verwenden Sie bei kleinen Datensätzen (<10 B-Tokens) den GA-Checkpoint, um die Funktionen zur Befolgung von Anweisungen beizubehalten und sich gleichzeitig an die Domäne anzupassen.
Wie verwendet man das Mischen von Daten für 1.0- oder 2.0-Modelle?
Bei der Durchführung von CPT mit neuen Domänendaten ist es äußerst vorteilhaft, die neuen Daten mit einigen der Daten zu kombinieren, die zuvor in der Vortrainingsphase des Modells verwendet wurden. Durch das Mischen alter Daten mit neuen Domänendaten werden zwei Probleme gelöst:
-
Kontrolle vergessen: Verhindert katastrophales Vergessen, indem vorhandene Fähigkeiten und Kenntnisse über das Modell erhalten bleiben. Ohne Datenmischung führt ein Training ausschließlich mit eng begrenzten Domänendaten dazu, dass das Modell allgemeine Funktionen überschreibt. Beispielsweise kann ein Modell, das nur anhand von Rechtsdokumenten trainiert wurde, seine Fähigkeit zum Programmieren oder Rechnen verlieren. Durch das Mischen der Datensätze für allgemeine Bereiche bleiben diese allgemeinen Fähigkeiten erhalten, während gleichzeitig das neue Fachgebiet erworben wird.
-
Optimierungsstabilität: Die Stabilität des Trainings wird aufrechterhalten, indem die internen Repräsentationen des Modells verankert werden. Während der CPT werden die erlernten Merkmale des Modells modifiziert, und die Datenmischung sorgt für Gradienten aus verschiedenen Quellen, die für eine reibungslose Anpassung sorgen. Ohne sie kann das Training mit engen Verteilungen zu Instabilität der Gradienten führen, sodass sich die Repräsentationen des Modells zu drastisch verschieben, was zu Trainingsdivergenz, Verlustspitzen oder zum Zusammenbruch vorhandener Fähigkeiten führt. Das ist der Kompromiss zwischen Stabilität und Plastizität: Das Modell sollte plastisch genug sein, um neues Fachwissen zu erlernen, aber stabil genug, um das, was es bereits weiß, nicht kaputt zu machen.
Funktionen zum Mischen von Daten in Nova CPT
Der Zugriff auf Amazon Nova-Daten und Checkpoints vor dem Training ist eines der Kernangebote der Amazon Nova CPT-Anpassung. Die CPT-Anpassung von Amazon Nova ermöglicht das einfache Mischen von Domaindaten mit dem Vortrainingskorpus von Amazon Nova. Darüber hinaus kann das Stichprobenverhältnis der spezifischen Amazon Nova-Datenkategorien (z. B. Code, Mathematik, Argumentation usw.) geändert und ihre Proportionen so gesteuert werden, dass sie die Domaindaten ergänzen. Dies ermöglicht die Stärkung der Funktionen, die auf den Anwendungsfall abgestimmt sind, und gleichzeitig das Modell an die spezifische Domäne anzupassen.
Finden des optimalen Mischungsverhältnisses
Das optimale Verhältnis von Amazon Nova-Daten zu Domaindaten hängt von der Domäne, Komplexität, Größe, Qualität und der Bedeutung der Aufrechterhaltung allgemeiner Funktionen des Datensatzes ab. Dieses Verhältnis muss durch Experimente herausgefunden werden. Ein Versuchsrahmen, um zu entscheiden, wie viele Amazon Nova-Daten gemischt werden sollen, sieht wie folgt aus.
Wählen Sie eine repräsentative Teilmenge von Domänendaten (z. B. 5B-Token) aus und halten Sie diese bei allen Versuchsläufen konstant.
Führen Sie kleine CPT-Experimente durch, bei denen nur die Menge der eingemischten Amazon Nova-Daten variiert wird:
-
Keine Vermischung: 100% Domäne → Nur 5B-Domäne (insgesamt 5B)
-
Lichtmischung: 90% Domäne → 5B-Domäne + ~0,56 B Amazon Nova (insgesamt ~5,56 B)
-
Mittlere Mischung: 70% Domäne → 5B-Domäne + ~2,14 B Amazon Nova (insgesamt ~7,14 B)
-
Starke Vermischung: 50% Domäne → 5B-Domäne + 5B Amazon Nova (insgesamt 10B)
Bewerten Sie jeden Checkpoint anhand von Domain-Benchmarks und allgemeinen Domain-Benchmarks. Evaluieren Sie auch den Startkontrollpunkt (Amazon Nova-Checkpoint vor jedem Training).
-
Bleibt die Leistung der Kundendomäne bei allen Durchläufen ungefähr konstant? In der Regel sollte dies der Fall sein, da bei jedem Lauf dieselbe Anzahl von Domain-Tokens verwendet wurde. Wenn sich die Domain-Performance bei stärkerer Vermischung verbessert, bieten Amazon Nova-Daten eine nützliche Regularisierung.
-
Verbessern sich die allgemeinen Benchmark-Werte, wenn die Mischung zunimmt?
-
Das erwartete Verhalten ist, dass sich die allgemeinen Funktionen monoton verbessern sollten, wenn mehr Amazon Nova-Daten hinzugefügt werden.
-
Messen Sie mehrere allgemeine Benchmarks: MMLU (Allgemeinwissen), HumanEval (Kodierung), GSM8 K (Mathematik) oder spezifische Benchmarks von Interesse.
-
-
Wählen Sie das Mischungsverhältnis, das die Domänenleistung beibehält und gleichzeitig akzeptable allgemeine Funktionen für die jeweiligen Anwendungsfälle bietet. Berücksichtigen Sie die zusätzlichen Kosten für Schulungen, wenn mehr Daten gemischt werden.
Sobald das optimale Mischungsverhältnis ermittelt wurde, führen Sie CPT in voller Größe aus und verwenden dabei den vollständigen Domänendatensatz mit dem ausgewählten Mischungsverhältnis.
Analyse der Datenmischungskategorien
Im Folgenden analysieren wir jede verfügbare Kategorie in Data Mixing, damit Sie am besten entscheiden können, welche Datenkategorien in Ihrer gesamten Datenmischung am sinnvollsten dargestellt werden sollen.
Wie aktiviert man das Mischen von Daten
Fügen Sie Ihrem Rezept den data_mixing Abschnitt mit der entsprechenden prozentualen Verteilung auf die Datensatzkategorien hinzu. Die Summe der nova_data Prozentsätze muss 100 ergeben.
Nova 1.0-Konfiguration mit Datenmischung
run: name: "cpt-job-name" # A descriptive name for your training job model_type: "amazon.nova-lite-v1:0:300k" # Model variant specification, do not change model_name_or_path: "nova-lite/prod" replicas: 4 data_s3_path: "s3://path/to/data/xyz.jsonl" output_s3_path: "s3://path/to/output/checkpoint" skip_recipe_validation: true training_config: max_length: 32768 global_batch_size: 64 trainer: max_steps: 5000 model: hidden_dropout: 0.1 attention_dropout: 0.1 ffn_dropout: 0.1 optim: lr: 1.5e-05 name: distributed_fused_adam adam_w_mode: true eps: 1.0e-06 weight_decay: 0.05 betas: - 0.9 - 0.999 sched: warmup_steps: 500 constant_steps: 0 min_lr: 1.5e-06 data_mixing: dataset_catalog: cpt_text_lite sources: nova_data: en-entertainment: 0.11% en-factual: 4.83% en-legal: 0.48% en-long-form-text: 6.26% en-mined: 16.79% en-other: 1.79% en-scientific: 10.53% en-social: 12.43% en-techqa: 13.95% code: 7.50% high-util-lang: 8.05% low-util-lang: 6.51% math: 8.76% en-finance: 1% tables: 1% customer_data: percent: 90
Was bedeuten diese Kategorien
| Name der Kategorie | Einzelheiten der Informationen |
|---|---|
en-entertainment |
Medien- und Unterhaltungsinhalte, darunter Videotranskripte, Spieldialoge und unterhaltsame Diskussionen. |
en-factual |
Referenzmaterial, enzyklopädische Inhalte, Bildungsressourcen und sachliche Dokumentation konzentrieren sich auf die Vermittlung genauer Informationen. |
en-finance |
Finanztexte wie Marktberichte, Wirtschaftsanalysen, Anlagestrategien, Finanznachrichten, Gewinnberichte und andere finanzbezogene Inhalte, die dem Modell helfen, wirtschaftliche Konzepte und Finanzterminologie zu verstehen. |
en-legal |
Juristische Dokumente, Gerichtsverfahren, Verträge, Gesetze, Vorschriften und Texte zur rechtlichen Analyse. |
en-long-form-text |
Umfangreiche Schriften, darunter Bücher, wissenschaftliche Arbeiten, ausführliche Artikel und andere umfangreiche Textdokumente. |
en-mined |
Textdaten, die aus verschiedenen Webquellen wie Foren, Kommentaren, Diskussionen und allgemeinen Webinhalten extrahiert und neu geschrieben wurden, um eine hohe Trainingsleistung zu gewährleisten. |
en-other |
Verschiedene englischsprachige Inhalte, die nicht eindeutig in andere Kategorien passen. |
en-scientific |
Wissenschaftliche Arbeiten, Forschungsdokumente, technische Berichte und wissenschaftliche Diskussionen in verschiedenen Bereichen. |
en-social |
Beiträge, Konversationen, Diskussionen und andere Formen der sozialen Kommunikation in sozialen Medien. |
en-techqa |
Technische Dokumentation, Benutzerhandbücher, FAQ-Seiten, technische Foren und Q-Inhalte zum Thema Technologie. |
code |
Programmierquellcode, Dokumentation und technische Diskussionen aus verschiedenen Programmiersprachen und Plattformen. |
high-util-lang |
Textinhalte in Sprachen mit großen Mengen verfügbarer Trainingsdaten, darunter Deutsch (DE), Italienisch (IT), Spanisch (ES), Französisch (FR), Hindi (HI), Japanisch (JP), Arabisch (AR) und Portugiesisch (PT) |
low-util-lang |
Textinhalte in weiteren gesprochenen Sprachen mit kleineren Mengen verfügbarer Trainingsdaten. |
math |
Mathematische Inhalte, einschließlich Lehrbücher, Probleme, Lösungen und mathematische Diskussionen. |
tables |
Strukturierte Daten im Tabellenformat, einschließlich Tabellenkalkulationen, Datenbanken, CSV-Dateien, statistischen Tabellen, Finanzberichten und anderen in Zeilen und Spalten organisierten Informationen, die dem Modell helfen, strukturierte Datenbeziehungen und -muster zu verstehen und damit zu arbeiten. |
Nova 2.0-Konfiguration mit Datenmischung
# Note: # This recipe can run on p5.48xlarge # Run config display_name: "Nova Lite Pretrain on P5 GPU" versions: ["2.0"] instance_types: ["ml.p5.48xlarge"] run: name: "my-cpt-run" # A descriptive name for your training job model_type: "amazon.nova-2-lite-v1:0:256k" # Model variant specification, do not change model_name_or_path: "nova-lite-2/prod" # Base model path, do not change replicas: 8 # Number of compute instances for training, allowed values are 4, 8, 16, 32 data_s3_path: "" # Customer data paths validation_data_s3_path: "" # Customer validation data paths output_s3_path: "" # Output artifact path, SageMaker HyperPod job-specific configuration - not compatible with standard SageMaker Training jobs ## Training specific configs training_config: task_type: cpt max_length: 8192 # Maximum context window size (tokens) global_batch_size: 64 # Global batch size, allowed values are 32, 64, 128, 256. trainer: max_steps: 10 # The number of training steps to run total val_check_interval: 10 # The number of steps between running validation limit_val_batches: 2 # Batches of the validation set to use each trigger model: hidden_dropout: 0.0 # Dropout for hidden states, must be between 0.0 and 1.0 attention_dropout: 0.0 # Dropout for attention weights, must be between 0.0 and 1.0 optim: optimizer: adam lr: 1e-5 # Learning rate name: distributed_fused_adam # Optimizer algorithm, do not change adam_w_mode: true # Enable AdamW mode eps: 1e-06 # Epsilon for numerical stability weight_decay: 0.0 # L2 regularization strength, must be between 0.0 and 1.0 adam_beta1: 0.9 # Beta1 for Adam optimizer adam_beta2: 0.95 # Beta2 for Adam optimizer sched: warmup_steps: 10 # Learning rate warmup steps constant_steps: 0 # Steps at constant learning rate min_lr: 1e-6 # Minimum learning rate, must be lower than lr data_mixing: dataset_catalog: cpt_text_lite sources: nova_data: # percent inputs for Nova data must sum to 100%; use 0% if you want to exclude a data grouping agents: 20 business-and-finance: 4 scientific: 10 code: 5 factual-and-news: 5 longform-text: 6 health-and-medicine: 1 humanities-and-education: 1 legal: 1 math: 9 additional-languages: 15 social-and-personal-interest: 11 entertainment: 0.5 reasoning: 10 other: 0.5 tables: 1 customer_data: # percent input of customer data. 100 = use only customer data, 0 = use only the nova_data mix above percent: 25
Was bedeuten diese Kategorien
Hinweis: Nova 2.0 enthält zusätzliche Kategorien, die für das Denken spezifisch sind (z. B.reasoning-code,reasoning-math,reasoning-instruction-following), die in Nova 1.0 nicht verfügbar sind.
Zusammenfassung der Kategorien und Informationsbeschriftungen:
| Name der Kategorie | Einzelheiten der Informationen |
|---|---|
agents |
Die Trainingsdaten konzentrierten sich auf autonome Entscheidungsfindung, Aufgabenerfüllung und zielorientiertes Verhalten in KI-Systemen |
baseline |
Die grundlegenden Sprachdaten konzentrierten sich auf das allgemeine Verständnis, die grundlegende Kommunikation und die wichtigsten sprachlichen Fähigkeiten |
chat |
Konversationsaustausch, der einen natürlichen Dialogfluss, die Aufrechterhaltung des Kontextes und angemessene soziale Interaktionen demonstriert |
code |
Programmierquellcode, Dokumentation und technische Diskussionen aus verschiedenen Programmiersprachen und Plattformen. |
factuality |
Referenzmaterialien und verifizierte Informationen konzentrierten sich auf Genauigkeit, Quellenvalidierung und Wahrheitsbeurteilung |
identity |
Persönlichkeitsrahmen und Verhaltensmuster konzentrierten sich auf konsistente Charaktereigenschaften, Werte und Interaktionsstile |
long-context |
Ausführliche Texte und komplexe Erzählungen konzentrierten sich auf die Wahrung von Kohärenz und Relevanz bei längeren Austauschen |
math |
Mathematische Inhalte, darunter Lehrbücher, Probleme, Lösungen und mathematische Diskussionen. |
rai |
Fälle und Szenarien, in denen ethische KI-Prinzipien, Sicherheitsüberlegungen und verantwortungsvoller Technologieeinsatz im Vordergrund stehen |
instruction-following |
Beispiele für die präzise Ausführung von Aufgaben auf der Grundlage unterschiedlicher Ebenen von Benutzeraufforderungen und -anweisungen |
stem |
Technische Inhalte aus den Bereichen Wissenschaft, Technologie, Ingenieurwesen und Mathematik, einschließlich Problemlösung und theoretischer Konzepte |
planning |
Sequenzen, die strategisches Denken, Aufschlüsselung von step-by-step Aufgaben und effiziente Ressourcenzuweisung demonstrieren |
reasoning-chat |
Analytische Dialogszenarien konzentrierten sich auf logische Diskussionen und strukturierte Gesprächsabläufe |
reasoning-code |
Herausforderungen bei der Programmierung und algorithmische Probleme standen im Mittelpunkt der systematischen Lösungsentwicklung |
reasoning-factuality |
Die Szenarien zur Informationsbewertung konzentrierten sich auf kritische Bewertungs- und Überprüfungsprozesse |
reasoning-instruction-following |
Komplexe Aufgabenanalyse mit Schwerpunkt auf systematischer Interpretation und methodischer Ausführung |
reasoning-math |
Mathematische Problemlösungsszenarien mit Schwerpunkt auf logischer Weiterentwicklung und Lösungsstrategien |
reasoning-planning |
Strategische Entscheidungsszenarien konzentrierten sich auf einen systematischen Ansatz zur Zielerreichung |
reasoning-rag |
Szenarien zur Informationsgewinnung und -synthese konzentrierten sich auf das kontextuelle Verständnis und die entsprechende Anwendung |
reasoning-rai |
Ethische Entscheidungsszenarien konzentrierten sich auf die systematische Bewertung der Sicherheit und Fairness von KI |
reasoning-stem |
Wissenschaftliche Problemlösungsszenarien mit Schwerpunkt auf methodischer Analyse und Lösungsentwicklung |
rag |
Beispiele für die effektive Kombination von abgerufenem externem Wissen mit generierten Antworten zur Bereitstellung genauer, kontextbezogener Informationen |
translation |
Mehrsprachige Inhaltspaare, die eine genaue Übersetzung ermöglichen und gleichzeitig Kontext, Tonalität und kulturelle Nuancen beibehalten |
Leitfaden zu den Parametern
-
dataset_catalog: Der einzige Wert ist vorerst cpt_text_lite, bis wir das multimodale Training aktivieren.
-
nova_data: Prozentsatz der einzelnen Kategorien von Nova-Daten, wenn sie zusammengemischt wurden. Sie sollten zusammen 1,0 ergeben.
-
customer_data: Der Prozentsatz der Kundendaten, die mit den Nova-Daten vermischt wurden.
Die Gesamtzahl der im Training verwendeten Token kann anhand von* * berechnet werden max_length global_batch_size max_steps
Einschränkungen
Das aktuelle CPT unterstützt nur Textdaten und keine multimodalen Kundendatensätze.