Pre-allenamento continuo e a metà allenamento - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Pre-allenamento continuo e a metà allenamento

Nota

La documentazione dettagliata viene fornita una volta sottoscritta

Nova Forge CPT offre funzionalità avanzate oltre al CPT standard, incluso l'accesso a checkpoint intermedi e la miscelazione dei dati con il corpus di pre-formazione di Nova. Queste funzionalità consentono un adattamento più efficiente del dominio e una migliore conservazione delle funzionalità generali del modello.

Cosa sono i checkpoint intermedi e perché sono necessari?

I checkpoint intermedi sono istantanee del modello Amazon Nova salvate in diverse fasi del pre-addestramento, prima che il modello raggiunga lo stato finale pronto per la produzione. Durante lo sviluppo del modello, Amazon Nova viene sottoposto a diverse fasi di formazione: pre-formazione iniziale con tasso di apprendimento costante, riduzione del tasso di apprendimento, formazione con estensione del contesto e infine formazione sull'allineamento e sulla sicurezza che segue le istruzioni. Per il CPT, i checkpoint intermedi sono spesso preferibili al checkpoint Prod finale perché sono più plastici e ricettivi all'adattamento del dominio. Il checkpoint Prod è stato sottoposto a un'ampia formazione sull'allineamento e sulla sicurezza, che ottimizza il modello per l'uso conversazionale generale ma può renderlo resistente all'apprendimento di nuovi schemi specifici del dominio durante il CPT. Al contrario, i checkpoint contenenti solo testo parzialmente e completamente preaddestrato mantengono le caratteristiche di pre-addestramento del modello. Non sono stati fortemente orientati verso comportamenti specifici, il che li rende punti di partenza più efficienti per l'adattamento al dominio. Quando si esegue un CPT su larga scala (token >10B), partire da checkpoint intermedi in genere si ottiene una convergenza più rapida, una migliore stabilità della formazione e un'acquisizione più efficace delle conoscenze di dominio. Tuttavia, per il CPT su piccola scala (token <10B), o quando è necessario preservare le funzionalità di seguire le istruzioni, il checkpoint Prod può essere più appropriato in quanto consente l'adattamento del dominio mantenendo le capacità di conversazione del modello.

Per il CPT sono necessari più checkpoint intermedi perché offrono diversi livelli di plasticità del modello che influiscono sull'efficienza con cui il modello può assorbire nuove conoscenze di dominio. Il checkpoint Prod finale è stato sottoposto a un'ampia formazione sull'allineamento e sulla sicurezza, che lo ottimizza per l'uso conversazionale generale ma lo rende resistente all'apprendimento di nuovi schemi specifici del dominio. In altre parole, è stato rafforzato dopo l'allenamento. Al contrario, i checkpoint precedenti mantengono le caratteristiche di pre-allenamento del modello e non sono stati fortemente orientati verso comportamenti specifici, il che li rende più plastici e ricettivi all'adattamento del dominio.

Per ottenere la migliore efficienza della formazione, sono disponibili più punti di controllo intermedi.

Quali posti di blocco sono disponibili?

Nova 1.0

La famiglia Amazon Nova 1.0 è composta da tre modelli (Micro, Lite, Pro) e per ogni modello sono disponibili tre checkpoint.

  • PRE-TRAINED - [nova-<micro/lite/pro>/pretraining-text-partial]: Questo è il punto di controllo dopo la fase di apprendimento costante del pre-training di Amazon Nova, in cui il modello viene addestrato su trilioni di token di testo.

  • MID-TRAINED - [nova-<micro/lite/pro>/pretraining-text-full]: Questo è il checkpoint di solo testo al termine di tutte le fasi della formazione preliminare e intermedia di Amazon Nova con trilioni di token di testo. Usali se il modello in particolare non avrebbe dovuto visualizzare dati multimodali.

  • MID-TRAINED - [nova-<lite/pro>/pretraining-mm-full]: Questo è il checkpoint dopo che tutte le fasi della formazione preliminare e intermedia di Amazon Nova, compresi i dati multimodali, sono state elaborate con trilioni di token.

  • POST-TRAINED - [nova-<micro/lite/pro>/prod]: Questo è il checkpoint finale completamente allineato del modello che ha superato tutte le fasi di pre-formazione e post-formazione.

Nova 2.0

Esistono tre checkpoint Amazon Nova Lite 2.0.

  • PRE-TRAINED - [nova-lite-2/pretraining-text-RD]: Questo è il checkpoint dopo il ritmo di apprendimento costante e le fasi di accelerazione della formazione preliminare di Amazon Nova, in cui il modello viene addestrato su trilioni di token.

  • MID-TRAINED - [nova-lite-2/pretraining-text-CE]: Questo checkpoint consente di introdurre volumi intermedi di dati non strutturati con un tasso di apprendimento più conservativo rispetto alla formazione preliminare, assorbendo le conoscenze specifiche del dominio ed evitando al contempo catastrofici dimenticamenti.

  • POST-TRAINED - [nova-lite-2/prod]: Questo è il checkpoint finale completamente allineato del modello che ha superato tutte le fasi pertinenti e successive alla formazione.

La tabella seguente illustra le diverse condizioni prima e durante l'allenamento.

Tipo di dati

Esegui

Con Checkpoint

Dati di dominio grezzi non strutturati su larga scala (documenti, registri, articoli, codice, ecc.)

Formazione preliminare continua

Pre-addestrato

Dati di dominio non strutturati non strutturati su larga scala (documenti, registri, articoli, codice, ecc.)

A metà allenamento

Pre-addestrato

Volumi più piccoli di dati grezzi non strutturati. Tracce di ragionamento strutturato/dati CoT

A metà allenamento

A metà allenamento

Dimostrazioni strutturate (coppie input-output di alta qualità, istruzioni dettagliate sulle attività, dialoghi a più turni)

Ottimizzazione completa

Metà allenato

Dimostrazioni strutturate (coppie input-output di alta qualità, istruzioni dettagliate sulle attività, dialoghi a più turni)

Regolazione precisa efficiente dei parametri

Post-addestramento

Quale checkpoint usare?

I checkpoint con solo testo parzialmente preaddestrato e solo testo completamente preaddestrato in genere convergono più rapidamente e richiedono meno passaggi di formazione per l'adattamento del dominio. Tuttavia, non sono in grado di adattare le istruzioni e dovrebbero sottoporsi a fasi successive all'addestramento per poter svolgere attività utili e seguire le istruzioni. Il punto di controllo GA potrebbe richiedere più passaggi per adattarsi, ma offre un punto di partenza più sicuro per esperimenti su piccola scala e manterrà alcune delle sue capacità post-addestramento anche dopo l'addestramento CPT.

In generale, con set di dati di addestramento di grandi dimensioni (più di 10 miliardi di token), iniziate da punti di controllo solo testuali parzialmente preaddestrati o solo testo completamente preaddestrato per un addestramento più efficiente e stabile, poiché la base di conoscenze del modello verrà modificata in modo sostanziale. Con set di dati di piccole dimensioni (<10 miliardi di token), utilizzate il checkpoint GA per preservare le capacità di seguire le istruzioni adattandovi al dominio.

Come utilizzare la miscelazione dei dati per i modelli 1.0 o 2.0?

Quando si esegue il CPT con dati di un nuovo dominio, è estremamente utile combinare i nuovi dati con alcuni dei dati utilizzati in precedenza nella fase di pre-addestramento del modello. La combinazione di dati vecchi con dati di nuovo dominio risolve due problemi:

  • Dimenticare il controllo: previene l'oblio catastrofico preservando le competenze e le conoscenze esistenti del modello. Senza la miscelazione dei dati, l'addestramento esclusivamente su dati di dominio ristretto fa sì che il modello sovrascriva le funzionalità generali. Ad esempio, un modello addestrato solo su documenti legali potrebbe perdere la capacità di codificare o fare calcoli matematici. La combinazione dei set di dati del dominio generale preserva queste competenze generali durante l'acquisizione del nuovo dominio.

  • Stabilità di ottimizzazione: mantiene la stabilità dell'allenamento ancorando le rappresentazioni interne del modello. Durante il CPT, le funzionalità apprese dal modello vengono modificate e la miscelazione dei dati fornisce gradienti provenienti da diverse fonti che guidano questo adattamento senza intoppi. Senza di essa, l'addestramento su distribuzioni ristrette può causare instabilità del gradiente, dove le rappresentazioni del modello cambiano troppo drasticamente, con conseguenti divergenze nell'addestramento, picchi di perdita o collasso delle capacità esistenti. Questo è il compromesso tra stabilità e plasticità: il modello deve essere sufficientemente plastico per apprendere nuove conoscenze di settore, ma abbastanza stabile da non rompere ciò che già conosce.

Funzionalità di mixaggio dei dati Nova CPT

L'accesso ai dati e ai checkpoint di pre-formazione di Amazon Nova è una delle offerte principali della personalizzazione CPT di Amazon Nova. La personalizzazione CPT di Amazon Nova consente di combinare facilmente i dati di dominio con il corpus di pre-formazione di Amazon Nova. Inoltre, è possibile modificare il rapporto di campionamento delle specifiche categorie di dati di Amazon Nova (ad es. codice, matematica, ragionamento, ecc.) e controllarne le proporzioni per integrare i dati del dominio. Ciò consente di rafforzare le funzionalità in linea con il caso d'uso adattando al contempo il modello al dominio specifico.

Individuazione del rapporto di miscelazione ottimale

Il rapporto ottimale tra dati di Amazon Nova e dati di dominio dipende dal dominio, dalla complessità, dalle dimensioni, dalla qualità del set di dati e dall'importanza di mantenere le funzionalità generali. Questo rapporto deve essere scoperto attraverso la sperimentazione. Di seguito è riportato un framework sperimentale per decidere la quantità di dati Amazon Nova da combinare.

Seleziona un sottoinsieme rappresentativo di dati di dominio (ad esempio token 5B) e mantieni questo valore costante in tutte le esecuzioni sperimentali.

Esegui esperimenti CPT su piccola scala variando solo la quantità di dati Amazon Nova mescolati in:

  • Nessuna combinazione: dominio 100% → solo dominio 5B (totale 5B)

  • Miscelazione della luce: 90% dominio → dominio 5B + ~ 0,56 B Amazon Nova (totale ~ 5,56 B)

  • Miscelazione media: 70% dominio → dominio 5B + ~ 2,14 B Amazon Nova (totale ~ 7,14 B)

  • Mixaggio intensivo: 50% dominio → dominio 5B+5B Amazon Nova (totale 10 B)

Valuta ogni checkpoint nei benchmark di dominio in e in generale. Valuta anche il checkpoint di partenza (checkpoint Amazon Nova prima di qualsiasi formazione).

  • Le prestazioni del dominio del cliente rimangono all'incirca costanti durante le esecuzioni? Di solito dovrebbe succedere, poiché ogni esecuzione ha registrato lo stesso numero di token di dominio. Se le prestazioni del dominio migliorano con una maggiore miscelazione, i dati di Amazon Nova forniscono un'utile regolarizzazione.

  • I punteggi generali dei benchmark migliorano all'aumentare del mixaggio?

    • Il comportamento previsto è che le funzionalità generali dovrebbero migliorare in modo monotono man mano che vengono aggiunti più dati di Amazon Nova.

    • Misura diversi benchmark generali: MMLU (conoscenza generale), (codifica), GSM8 K HumanEval (matematica) o benchmark specifici di interesse.

  • Seleziona il rapporto di miscelazione che mantiene le prestazioni del dominio offrendo al contempo funzionalità generali accettabili per i casi d'uso. Tieni conto del costo aggiuntivo della formazione con una maggiore combinazione di dati.

Una volta identificato il rapporto di miscelazione ottimale, esegui un CPT su vasta scala utilizzando il set di dati completo del dominio con il rapporto di miscelazione selezionato.

Analisi delle categorie di miscelazione dei dati

Di seguito analizziamo ogni categoria disponibile in Data Mixing, per consentirvi di prendere la decisione migliore su quali categorie di dati abbia più senso essere rappresentate nella combinazione complessiva di dati.

Come abilitare il data mixing

Aggiungi la data_mixing sezione alla tua ricetta con la distribuzione percentuale appropriata tra le categorie di set di dati. La somma nova_data delle percentuali deve essere 100.

Configurazione Nova 1.0 con miscelazione dei dati

run: name: "cpt-job-name" # A descriptive name for your training job model_type: "amazon.nova-lite-v1:0:300k" # Model variant specification, do not change model_name_or_path: "nova-lite/prod" replicas: 4 data_s3_path: "s3://path/to/data/xyz.jsonl" output_s3_path: "s3://path/to/output/checkpoint" skip_recipe_validation: true training_config: max_length: 32768 global_batch_size: 64 trainer: max_steps: 5000 model: hidden_dropout: 0.1 attention_dropout: 0.1 ffn_dropout: 0.1 optim: lr: 1.5e-05 name: distributed_fused_adam adam_w_mode: true eps: 1.0e-06 weight_decay: 0.05 betas: - 0.9 - 0.999 sched: warmup_steps: 500 constant_steps: 0 min_lr: 1.5e-06 data_mixing: dataset_catalog: cpt_text_lite sources: nova_data: en-entertainment: 0.11% en-factual: 4.83% en-legal: 0.48% en-long-form-text: 6.26% en-mined: 16.79% en-other: 1.79% en-scientific: 10.53% en-social: 12.43% en-techqa: 13.95% code: 7.50% high-util-lang: 8.05% low-util-lang: 6.51% math: 8.76% en-finance: 1% tables: 1% customer_data: percent: 90

Cosa significano queste categorie

Nome della categoria Dettagli delle informazioni
en-entertainment Contenuti multimediali e di intrattenimento, tra cui trascrizioni di video, dialoghi di gioco e discussioni incentrate sull'intrattenimento.
en-factual Materiale di riferimento, contenuti enciclopedici, risorse didattiche e documentazione fattuale incentrati sulla trasmissione di informazioni accurate.
en-finance Testi finanziari tra cui rapporti di mercato, analisi economiche, strategie di investimento, articoli di notizie finanziarie, report sugli utili e altri contenuti relativi alla finanza che aiutano il modello a comprendere i concetti economici e la terminologia finanziaria.
en-legal Documenti legali, procedimenti giudiziari, contratti, leggi, regolamenti e testi di analisi legale.
en-long-form-text Scritti estesi che includono libri, articoli accademici, lunghi articoli e altri documenti di testo sostanziali.
en-mined Dati di testo estratti da varie fonti Web, tra cui forum, commenti, discussioni e contenuti web generali, e riscritti per garantire prestazioni di formazione elevate.
en-other Contenuti vari in lingua inglese che non rientrano chiaramente in altre categorie.
en-scientific Articoli scientifici, documenti di ricerca, rapporti tecnici e discussioni scientifiche in vari campi.
en-social Post, conversazioni, discussioni e altre forme di comunicazione sociale sui social media.
en-techqa Documentazione tecnica, guide per l'utente, pagine di domande frequenti, forum tecnici e contenuti Q relativi alla tecnologia.
code Codice sorgente di programmazione, documentazione e discussioni tecniche da vari linguaggi e piattaforme di programmazione.
high-util-lang Contenuto del testo in lingue con grandi quantità di dati di formazione disponibili, tra cui tedesco (DE), italiano (IT), spagnolo (ES), francese (FR), hindi (HI), giapponese (JP), arabo (AR) e portoghese (PT)
low-util-lang Contenuto del testo in altre lingue parlate con quantità minori di dati di formazione disponibili.
math Contenuti matematici tra cui libri di testo, problemi, soluzioni e discussioni matematiche.
tables Dati strutturati in formato tabulare, tra cui fogli di calcolo, database, file CSV, tabelle statistiche, report finanziari e altre informazioni organizzate in righe e colonne che aiutano il modello a comprendere e utilizzare relazioni e modelli di dati strutturati.

Configurazione Nova 2.0 con miscelazione dei dati

# Note: # This recipe can run on p5.48xlarge # Run config display_name: "Nova Lite Pretrain on P5 GPU" versions: ["2.0"] instance_types: ["ml.p5.48xlarge"] run: name: "my-cpt-run" # A descriptive name for your training job model_type: "amazon.nova-2-lite-v1:0:256k" # Model variant specification, do not change model_name_or_path: "nova-lite-2/prod" # Base model path, do not change replicas: 8 # Number of compute instances for training, allowed values are 4, 8, 16, 32 data_s3_path: "" # Customer data paths validation_data_s3_path: "" # Customer validation data paths output_s3_path: "" # Output artifact path, SageMaker HyperPod job-specific configuration - not compatible with standard SageMaker Training jobs ## Training specific configs training_config: task_type: cpt max_length: 8192 # Maximum context window size (tokens) global_batch_size: 64 # Global batch size, allowed values are 32, 64, 128, 256. trainer: max_steps: 10 # The number of training steps to run total val_check_interval: 10 # The number of steps between running validation limit_val_batches: 2 # Batches of the validation set to use each trigger model: hidden_dropout: 0.0 # Dropout for hidden states, must be between 0.0 and 1.0 attention_dropout: 0.0 # Dropout for attention weights, must be between 0.0 and 1.0 optim: optimizer: adam lr: 1e-5 # Learning rate name: distributed_fused_adam # Optimizer algorithm, do not change adam_w_mode: true # Enable AdamW mode eps: 1e-06 # Epsilon for numerical stability weight_decay: 0.0 # L2 regularization strength, must be between 0.0 and 1.0 adam_beta1: 0.9 # Beta1 for Adam optimizer adam_beta2: 0.95 # Beta2 for Adam optimizer sched: warmup_steps: 10 # Learning rate warmup steps constant_steps: 0 # Steps at constant learning rate min_lr: 1e-6 # Minimum learning rate, must be lower than lr data_mixing: dataset_catalog: cpt_text_lite sources: nova_data: # percent inputs for Nova data must sum to 100%; use 0% if you want to exclude a data grouping agents: 20 business-and-finance: 4 scientific: 10 code: 5 factual-and-news: 5 longform-text: 6 health-and-medicine: 1 humanities-and-education: 1 legal: 1 math: 9 additional-languages: 15 social-and-personal-interest: 11 entertainment: 0.5 reasoning: 10 other: 0.5 tables: 1 customer_data: # percent input of customer data. 100 = use only customer data, 0 = use only the nova_data mix above percent: 25

Cosa significano queste categorie

Nota: Nova 2.0 include categorie aggiuntive specifiche per il ragionamento (ad esempio, reasoning-codereasoning-math,reasoning-instruction-following) che non sono disponibili in Nova 1.0.

Riepilogo delle categorie e delle etichette informative:

Nome della categoria Dettagli delle informazioni
agents Dati di formazione incentrati sul processo decisionale autonomo, sul completamento delle attività e sul comportamento orientato agli obiettivi nei sistemi di intelligenza artificiale
baseline Dati linguistici fondamentali incentrati sulla comprensione generale, sulla comunicazione di base e sulle capacità linguistiche di base
chat Scambi conversazionali che dimostrano un flusso di dialogo naturale, il mantenimento del contesto e interazioni sociali appropriate
code Codice sorgente di programmazione, documentazione e discussioni tecniche da vari linguaggi e piattaforme di programmazione.
factuality Materiali di riferimento e informazioni verificate incentrati sull'accuratezza, la convalida della fonte e la valutazione della verità
identity Quadri di personalità e modelli comportamentali incentrati su tratti caratteriali, valori e stili di interazione coerenti
long-context Testi estesi e narrazioni complesse incentrati sul mantenimento della coerenza e della pertinenza durante lunghi scambi
math Contenuti matematici tra cui libri di testo, problemi, soluzioni e discussioni matematiche.
rai Casi e scenari che enfatizzano i principi etici dell'IA, le considerazioni sulla sicurezza e l'implementazione responsabile della tecnologia
instruction-following Esempi di esecuzione precisa delle attività in base a diversi livelli di istruzioni e direttive dell'utente
stem Contenuti tecnici riguardanti scienza, tecnologia, ingegneria e matematica, compresi concetti teorici e di risoluzione di problemi
planning Sequenze che dimostrano il pensiero strategico, la suddivisione delle step-by-step attività e l'allocazione efficiente delle risorse
reasoning-chat Scenari di dialogo analitici incentrati su discussioni logiche e flussi di conversazione strutturati
reasoning-code Sfide di programmazione e problemi algoritmici incentrati sullo sviluppo sistematico di soluzioni
reasoning-factuality Scenari di valutazione delle informazioni incentrati sui processi critici di valutazione e verifica
reasoning-instruction-following Analisi complessa delle attività incentrata sull'interpretazione sistematica e sull'esecuzione metodica
reasoning-math Scenari matematici di risoluzione di problemi incentrati sulla progressione logica e sulle strategie di soluzione
reasoning-planning Scenari decisionali strategici incentrati su un approccio sistematico al raggiungimento degli obiettivi
reasoning-rag Scenari di recupero e sintesi delle informazioni incentrati sulla comprensione contestuale e sull'applicazione pertinente
reasoning-rai Scenari decisionali etici incentrati sulla valutazione sistematica della sicurezza e dell'equità dell'IA
reasoning-stem Scenari scientifici di risoluzione dei problemi incentrati sull'analisi metodica e sullo sviluppo di soluzioni
rag Esempi di combinazione efficace delle conoscenze esterne recuperate con le risposte generate per fornire informazioni contestuali accurate
translation Combinazioni di contenuti multilingue che mostrano una traduzione accurata preservando il contesto, il tono e le sfumature culturali

Guida ai parametri

  • dataset_catalog: L'unico valore è cpt_text_lite per ora, finché non abilitiamo l'addestramento multimodale.

  • nova_data: percentuale delle singole categorie di dati Nova quando vengono mescolati. Dovrebbero sommarsi fino a 1,0.

  • customer_data: la percentuale di dati del cliente mescolati ai dati Nova.

Il numero totale di token utilizzati nella formazione può essere calcolato da* * max_length global_batch_size max_steps

Limitazioni

L'attuale CPT supporta solo dati di testo e non supporta alcun set di dati multimodale del cliente.