Cosa sono i checkpoint intermedi e perché sono necessari?Quali posti di blocco sono disponibili?Quale checkpoint usare?Come utilizzare la miscelazione dei dati per i modelli 1.0 o 2.0?Analisi delle categorie di miscelazione dei dati

Pre-allenamento continuo e a metà allenamento

Nota

La documentazione dettagliata viene fornita una volta sottoscritta

Nova Forge CPT offre funzionalità avanzate oltre al CPT standard, incluso l'accesso a checkpoint intermedi e la miscelazione dei dati con il corpus di pre-formazione di Nova. Queste funzionalità consentono un adattamento più efficiente del dominio e una migliore conservazione delle funzionalità generali del modello.

Cosa sono i checkpoint intermedi e perché sono necessari?

I checkpoint intermedi sono istantanee del modello Amazon Nova salvate in diverse fasi del pre-addestramento, prima che il modello raggiunga lo stato finale pronto per la produzione. Durante lo sviluppo del modello, Amazon Nova viene sottoposto a diverse fasi di formazione: pre-formazione iniziale con tasso di apprendimento costante, riduzione del tasso di apprendimento, formazione con estensione del contesto e infine formazione sull'allineamento e sulla sicurezza che segue le istruzioni. Per il CPT, i checkpoint intermedi sono spesso preferibili al checkpoint Prod finale perché sono più plastici e ricettivi all'adattamento del dominio. Il checkpoint Prod è stato sottoposto a un'ampia formazione sull'allineamento e sulla sicurezza, che ottimizza il modello per l'uso conversazionale generale ma può renderlo resistente all'apprendimento di nuovi schemi specifici del dominio durante il CPT. Al contrario, i checkpoint contenenti solo testo parzialmente e completamente preaddestrato mantengono le caratteristiche di pre-addestramento del modello. Non sono stati fortemente orientati verso comportamenti specifici, il che li rende punti di partenza più efficienti per l'adattamento al dominio. Quando si esegue un CPT su larga scala (token >10B), partire da checkpoint intermedi in genere si ottiene una convergenza più rapida, una migliore stabilità della formazione e un'acquisizione più efficace delle conoscenze di dominio. Tuttavia, per il CPT su piccola scala (token <10B), o quando è necessario preservare le funzionalità di seguire le istruzioni, il checkpoint Prod può essere più appropriato in quanto consente l'adattamento del dominio mantenendo le capacità di conversazione del modello.

Per il CPT sono necessari più checkpoint intermedi perché offrono diversi livelli di plasticità del modello che influiscono sull'efficienza con cui il modello può assorbire nuove conoscenze di dominio. Il checkpoint Prod finale è stato sottoposto a un'ampia formazione sull'allineamento e sulla sicurezza, che lo ottimizza per l'uso conversazionale generale ma lo rende resistente all'apprendimento di nuovi schemi specifici del dominio. In altre parole, è stato rafforzato dopo l'allenamento. Al contrario, i checkpoint precedenti mantengono le caratteristiche di pre-allenamento del modello e non sono stati fortemente orientati verso comportamenti specifici, il che li rende più plastici e ricettivi all'adattamento del dominio.

Per ottenere la migliore efficienza della formazione, sono disponibili più punti di controllo intermedi.

Quali posti di blocco sono disponibili?

Nova 1.0

La famiglia Amazon Nova 1.0 è composta da tre modelli (Micro, Lite, Pro) e per ogni modello sono disponibili tre checkpoint.

PRE-TRAINED - [nova-<micro/lite/pro>/pretraining-text-partial]: Questo è il punto di controllo dopo la fase di apprendimento costante del pre-training di Amazon Nova, in cui il modello viene addestrato su trilioni di token di testo.
MID-TRAINED - [nova-<micro/lite/pro>/pretraining-text-full]: Questo è il checkpoint di solo testo al termine di tutte le fasi della formazione preliminare e intermedia di Amazon Nova con trilioni di token di testo. Usali se il modello in particolare non avrebbe dovuto visualizzare dati multimodali.
MID-TRAINED - [nova-<lite/pro>/pretraining-mm-full]: Questo è il checkpoint dopo che tutte le fasi della formazione preliminare e intermedia di Amazon Nova, compresi i dati multimodali, sono state elaborate con trilioni di token.
POST-TRAINED - [nova-<micro/lite/pro>/prod]: Questo è il checkpoint finale completamente allineato del modello che ha superato tutte le fasi di pre-formazione e post-formazione.

Nova 2.0

Esistono tre checkpoint Amazon Nova Lite 2.0.

PRE-TRAINED - [nova-lite-2/pretraining-text-RD]: Questo è il checkpoint dopo il ritmo di apprendimento costante e le fasi di accelerazione della formazione preliminare di Amazon Nova, in cui il modello viene addestrato su trilioni di token.
MID-TRAINED - [nova-lite-2/pretraining-text-CE]: Questo checkpoint consente di introdurre volumi intermedi di dati non strutturati con un tasso di apprendimento più conservativo rispetto alla formazione preliminare, assorbendo le conoscenze specifiche del dominio ed evitando al contempo catastrofici dimenticamenti.
POST-TRAINED - [nova-lite-2/prod]: Questo è il checkpoint finale completamente allineato del modello che ha superato tutte le fasi pertinenti e successive alla formazione.

La tabella seguente illustra le diverse condizioni prima e durante l'allenamento.

Tipo di dati	Esegui	Con Checkpoint
Dati di dominio grezzi non strutturati su larga scala (documenti, registri, articoli, codice, ecc.)	Formazione preliminare continua	Pre-addestrato
Dati di dominio non strutturati non strutturati su larga scala (documenti, registri, articoli, codice, ecc.)	A metà allenamento	Pre-addestrato
Volumi più piccoli di dati grezzi non strutturati. Tracce di ragionamento strutturato/dati CoT	A metà allenamento	A metà allenamento
Dimostrazioni strutturate (coppie input-output di alta qualità, istruzioni dettagliate sulle attività, dialoghi a più turni)	Ottimizzazione completa	Metà allenato
Dimostrazioni strutturate (coppie input-output di alta qualità, istruzioni dettagliate sulle attività, dialoghi a più turni)	Regolazione precisa efficiente dei parametri	Post-addestramento

Quale checkpoint usare?

I checkpoint con solo testo parzialmente preaddestrato e solo testo completamente preaddestrato in genere convergono più rapidamente e richiedono meno passaggi di formazione per l'adattamento del dominio. Tuttavia, non sono in grado di adattare le istruzioni e dovrebbero sottoporsi a fasi successive all'addestramento per poter svolgere attività utili e seguire le istruzioni. Il punto di controllo GA potrebbe richiedere più passaggi per adattarsi, ma offre un punto di partenza più sicuro per esperimenti su piccola scala e manterrà alcune delle sue capacità post-addestramento anche dopo l'addestramento CPT.

In generale, con set di dati di addestramento di grandi dimensioni (più di 10 miliardi di token), iniziate da punti di controllo solo testuali parzialmente preaddestrati o solo testo completamente preaddestrato per un addestramento più efficiente e stabile, poiché la base di conoscenze del modello verrà modificata in modo sostanziale. Con set di dati di piccole dimensioni (<10 miliardi di token), utilizzate il checkpoint GA per preservare le capacità di seguire le istruzioni adattandovi al dominio.

Come utilizzare la miscelazione dei dati per i modelli 1.0 o 2.0?

Quando si esegue il CPT con dati di un nuovo dominio, è estremamente utile combinare i nuovi dati con alcuni dei dati utilizzati in precedenza nella fase di pre-addestramento del modello. La combinazione di dati vecchi con dati di nuovo dominio risolve due problemi:

Dimenticare il controllo: previene l'oblio catastrofico preservando le competenze e le conoscenze esistenti del modello. Senza la miscelazione dei dati, l'addestramento esclusivamente su dati di dominio ristretto fa sì che il modello sovrascriva le funzionalità generali. Ad esempio, un modello addestrato solo su documenti legali potrebbe perdere la capacità di codificare o fare calcoli matematici. La combinazione dei set di dati del dominio generale preserva queste competenze generali durante l'acquisizione del nuovo dominio.
Stabilità di ottimizzazione: mantiene la stabilità dell'allenamento ancorando le rappresentazioni interne del modello. Durante il CPT, le funzionalità apprese dal modello vengono modificate e la miscelazione dei dati fornisce gradienti provenienti da diverse fonti che guidano questo adattamento senza intoppi. Senza di essa, l'addestramento su distribuzioni ristrette può causare instabilità del gradiente, dove le rappresentazioni del modello cambiano troppo drasticamente, con conseguenti divergenze nell'addestramento, picchi di perdita o collasso delle capacità esistenti. Questo è il compromesso tra stabilità e plasticità: il modello deve essere sufficientemente plastico per apprendere nuove conoscenze di settore, ma abbastanza stabile da non rompere ciò che già conosce.

Funzionalità di mixaggio dei dati Nova CPT

L'accesso ai dati e ai checkpoint di pre-formazione di Amazon Nova è una delle offerte principali della personalizzazione CPT di Amazon Nova. La personalizzazione CPT di Amazon Nova consente di combinare facilmente i dati di dominio con il corpus di pre-formazione di Amazon Nova. Inoltre, è possibile modificare il rapporto di campionamento delle specifiche categorie di dati di Amazon Nova (ad es. codice, matematica, ragionamento, ecc.) e controllarne le proporzioni per integrare i dati del dominio. Ciò consente di rafforzare le funzionalità in linea con il caso d'uso adattando al contempo il modello al dominio specifico.

Individuazione del rapporto di miscelazione ottimale

Il rapporto ottimale tra dati di Amazon Nova e dati di dominio dipende dal dominio, dalla complessità, dalle dimensioni, dalla qualità del set di dati e dall'importanza di mantenere le funzionalità generali. Questo rapporto deve essere scoperto attraverso la sperimentazione. Di seguito è riportato un framework sperimentale per decidere la quantità di dati Amazon Nova da combinare.

Seleziona un sottoinsieme rappresentativo di dati di dominio (ad esempio token 5B) e mantieni questo valore costante in tutte le esecuzioni sperimentali.

Esegui esperimenti CPT su piccola scala variando solo la quantità di dati Amazon Nova mescolati in:

Nessuna combinazione: dominio 100% → solo dominio 5B (totale 5B)
Miscelazione della luce: 90% dominio → dominio 5B + ~ 0,56 B Amazon Nova (totale ~ 5,56 B)
Miscelazione media: 70% dominio → dominio 5B + ~ 2,14 B Amazon Nova (totale ~ 7,14 B)
Mixaggio intensivo: 50% dominio → dominio 5B+5B Amazon Nova (totale 10 B)

Valuta ogni checkpoint nei benchmark di dominio in e in generale. Valuta anche il checkpoint di partenza (checkpoint Amazon Nova prima di qualsiasi formazione).

Le prestazioni del dominio del cliente rimangono all'incirca costanti durante le esecuzioni? Di solito dovrebbe succedere, poiché ogni esecuzione ha registrato lo stesso numero di token di dominio. Se le prestazioni del dominio migliorano con una maggiore miscelazione, i dati di Amazon Nova forniscono un'utile regolarizzazione.
I punteggi generali dei benchmark migliorano all'aumentare del mixaggio?
- Il comportamento previsto è che le funzionalità generali dovrebbero migliorare in modo monotono man mano che vengono aggiunti più dati di Amazon Nova.
- Misura diversi benchmark generali: MMLU (conoscenza generale), (codifica), GSM8 K HumanEval (matematica) o benchmark specifici di interesse.
Seleziona il rapporto di miscelazione che mantiene le prestazioni del dominio offrendo al contempo funzionalità generali accettabili per i casi d'uso. Tieni conto del costo aggiuntivo della formazione con una maggiore combinazione di dati.

Una volta identificato il rapporto di miscelazione ottimale, esegui un CPT su vasta scala utilizzando il set di dati completo del dominio con il rapporto di miscelazione selezionato.

Analisi delle categorie di miscelazione dei dati

Di seguito analizziamo ogni categoria disponibile in Data Mixing, per consentirvi di prendere la decisione migliore su quali categorie di dati abbia più senso essere rappresentate nella combinazione complessiva di dati.

Come abilitare il data mixing

Aggiungi la data_mixing sezione alla tua ricetta con la distribuzione percentuale appropriata tra le categorie di set di dati. La somma nova_data delle percentuali deve essere 100.

Configurazione Nova 1.0 con miscelazione dei dati



run:
  name: "cpt-job-name"             # A descriptive name for your training job
  model_type: "amazon.nova-lite-v1:0:300k"  # Model variant specification, do not change
  model_name_or_path: "nova-lite/prod"
  replicas: 4 
  data_s3_path: "s3://path/to/data/xyz.jsonl"
  output_s3_path: "s3://path/to/output/checkpoint"
  
skip_recipe_validation: true
training_config:
  max_length: 32768
  global_batch_size: 64
  trainer:
    max_steps: 5000
  model:
    hidden_dropout: 0.1
    attention_dropout: 0.1
    ffn_dropout: 0.1
    optim:
      lr: 1.5e-05
      name: distributed_fused_adam
      adam_w_mode: true
      eps: 1.0e-06
      weight_decay: 0.05
      betas:
      - 0.9
      - 0.999
      sched:
        warmup_steps: 500
        constant_steps: 0
        min_lr: 1.5e-06
        
data_mixing:
  dataset_catalog: cpt_text_lite
  sources:
    nova_data:
      en-entertainment: 0.11%
      en-factual: 4.83%
      en-legal: 0.48%
      en-long-form-text: 6.26%
      en-mined: 16.79%
      en-other: 1.79%
      en-scientific: 10.53%
      en-social: 12.43%
      en-techqa: 13.95%
      code: 7.50%
      high-util-lang: 8.05%
      low-util-lang: 6.51%
      math: 8.76%
      en-finance: 1%
      tables: 1%
    customer_data:
      percent: 90

Cosa significano queste categorie

Nome della categoria	Dettagli delle informazioni
`en-entertainment`	Contenuti multimediali e di intrattenimento, tra cui trascrizioni di video, dialoghi di gioco e discussioni incentrate sull'intrattenimento.
`en-factual`	Materiale di riferimento, contenuti enciclopedici, risorse didattiche e documentazione fattuale incentrati sulla trasmissione di informazioni accurate.
`en-finance`	Testi finanziari tra cui rapporti di mercato, analisi economiche, strategie di investimento, articoli di notizie finanziarie, report sugli utili e altri contenuti relativi alla finanza che aiutano il modello a comprendere i concetti economici e la terminologia finanziaria.
`en-legal`	Documenti legali, procedimenti giudiziari, contratti, leggi, regolamenti e testi di analisi legale.
`en-long-form-text`	Scritti estesi che includono libri, articoli accademici, lunghi articoli e altri documenti di testo sostanziali.
`en-mined`	Dati di testo estratti da varie fonti Web, tra cui forum, commenti, discussioni e contenuti web generali, e riscritti per garantire prestazioni di formazione elevate.
`en-other`	Contenuti vari in lingua inglese che non rientrano chiaramente in altre categorie.
`en-scientific`	Articoli scientifici, documenti di ricerca, rapporti tecnici e discussioni scientifiche in vari campi.
`en-social`	Post, conversazioni, discussioni e altre forme di comunicazione sociale sui social media.
`en-techqa`	Documentazione tecnica, guide per l'utente, pagine di domande frequenti, forum tecnici e contenuti Q relativi alla tecnologia.
`code`	Codice sorgente di programmazione, documentazione e discussioni tecniche da vari linguaggi e piattaforme di programmazione.
`high-util-lang`	Contenuto del testo in lingue con grandi quantità di dati di formazione disponibili, tra cui tedesco (DE), italiano (IT), spagnolo (ES), francese (FR), hindi (HI), giapponese (JP), arabo (AR) e portoghese (PT)
`low-util-lang`	Contenuto del testo in altre lingue parlate con quantità minori di dati di formazione disponibili.
`math`	Contenuti matematici tra cui libri di testo, problemi, soluzioni e discussioni matematiche.
`tables`	Dati strutturati in formato tabulare, tra cui fogli di calcolo, database, file CSV, tabelle statistiche, report finanziari e altre informazioni organizzate in righe e colonne che aiutano il modello a comprendere e utilizzare relazioni e modelli di dati strutturati.

Configurazione Nova 2.0 con miscelazione dei dati



# Note:
# This recipe can run on p5.48xlarge

# Run config
display_name: "Nova Lite Pretrain on P5 GPU"
versions: ["2.0"]
instance_types: ["ml.p5.48xlarge"]

run:
  name: "my-cpt-run"     # A descriptive name for your training job
  model_type: "amazon.nova-2-lite-v1:0:256k" # Model variant specification, do not change
  model_name_or_path: "nova-lite-2/prod" # Base model path, do not change
  replicas: 8       # Number of compute instances for training, allowed values are 4, 8, 16, 32
  data_s3_path: ""       # Customer data paths
  validation_data_s3_path: ""        # Customer validation data paths
  output_s3_path: ""   # Output artifact path, SageMaker HyperPod job-specific configuration - not compatible with standard SageMaker Training jobs

## Training specific configs
training_config:
  task_type: cpt
  max_length: 8192              # Maximum context window size (tokens)
  global_batch_size: 64        # Global batch size, allowed values are 32, 64, 128, 256.

  trainer:
    max_steps: 10               # The number of training steps to run total
    val_check_interval: 10      # The number of steps between running validation
    limit_val_batches: 2        # Batches of the validation set to use each trigger

  model:
    hidden_dropout: 0.0           # Dropout for hidden states, must be between 0.0 and 1.0
    attention_dropout: 0.0        # Dropout for attention weights, must be between 0.0 and 1.0

  optim:
    optimizer: adam
    lr: 1e-5                      # Learning rate
    name: distributed_fused_adam  # Optimizer algorithm, do not change
    adam_w_mode: true             # Enable AdamW mode
    eps: 1e-06                    # Epsilon for numerical stability
    weight_decay: 0.0             # L2 regularization strength, must be between 0.0 and 1.0
    adam_beta1: 0.9               # Beta1 for Adam optimizer
    adam_beta2: 0.95              # Beta2 for Adam optimizer
    sched:
      warmup_steps: 10            # Learning rate warmup steps
      constant_steps: 0           # Steps at constant learning rate
      min_lr: 1e-6                # Minimum learning rate, must be lower than lr

data_mixing:
  dataset_catalog: cpt_text_lite
  sources:
    nova_data:   # percent inputs for Nova data must sum to 100%; use 0% if you want to exclude a data grouping
      agents: 20
      business-and-finance: 4
      scientific: 10
      code: 5
      factual-and-news: 5
      longform-text: 6
      health-and-medicine: 1
      humanities-and-education: 1
      legal: 1
      math: 9
      additional-languages: 15
      social-and-personal-interest: 11
      entertainment: 0.5
      reasoning: 10
      other: 0.5
      tables: 1
    customer_data: # percent input of customer data. 100 = use only customer data, 0 = use only the nova_data mix above
      percent: 25

Cosa significano queste categorie

Nota: Nova 2.0 include categorie aggiuntive specifiche per il ragionamento (ad esempio, reasoning-codereasoning-math,reasoning-instruction-following) che non sono disponibili in Nova 1.0.

Riepilogo delle categorie e delle etichette informative:

Nome della categoria	Dettagli delle informazioni
`agents`	Dati di formazione incentrati sul processo decisionale autonomo, sul completamento delle attività e sul comportamento orientato agli obiettivi nei sistemi di intelligenza artificiale
`baseline`	Dati linguistici fondamentali incentrati sulla comprensione generale, sulla comunicazione di base e sulle capacità linguistiche di base
`chat`	Scambi conversazionali che dimostrano un flusso di dialogo naturale, il mantenimento del contesto e interazioni sociali appropriate
`code`	Codice sorgente di programmazione, documentazione e discussioni tecniche da vari linguaggi e piattaforme di programmazione.
`factuality`	Materiali di riferimento e informazioni verificate incentrati sull'accuratezza, la convalida della fonte e la valutazione della verità
`identity`	Quadri di personalità e modelli comportamentali incentrati su tratti caratteriali, valori e stili di interazione coerenti
`long-context`	Testi estesi e narrazioni complesse incentrati sul mantenimento della coerenza e della pertinenza durante lunghi scambi
`math`	Contenuti matematici tra cui libri di testo, problemi, soluzioni e discussioni matematiche.
`rai`	Casi e scenari che enfatizzano i principi etici dell'IA, le considerazioni sulla sicurezza e l'implementazione responsabile della tecnologia
`instruction-following`	Esempi di esecuzione precisa delle attività in base a diversi livelli di istruzioni e direttive dell'utente
`stem`	Contenuti tecnici riguardanti scienza, tecnologia, ingegneria e matematica, compresi concetti teorici e di risoluzione di problemi
`planning`	Sequenze che dimostrano il pensiero strategico, la suddivisione delle step-by-step attività e l'allocazione efficiente delle risorse
`reasoning-chat`	Scenari di dialogo analitici incentrati su discussioni logiche e flussi di conversazione strutturati
`reasoning-code`	Sfide di programmazione e problemi algoritmici incentrati sullo sviluppo sistematico di soluzioni
`reasoning-factuality`	Scenari di valutazione delle informazioni incentrati sui processi critici di valutazione e verifica
`reasoning-instruction-following`	Analisi complessa delle attività incentrata sull'interpretazione sistematica e sull'esecuzione metodica
`reasoning-math`	Scenari matematici di risoluzione di problemi incentrati sulla progressione logica e sulle strategie di soluzione
`reasoning-planning`	Scenari decisionali strategici incentrati su un approccio sistematico al raggiungimento degli obiettivi
`reasoning-rag`	Scenari di recupero e sintesi delle informazioni incentrati sulla comprensione contestuale e sull'applicazione pertinente
`reasoning-rai`	Scenari decisionali etici incentrati sulla valutazione sistematica della sicurezza e dell'equità dell'IA
`reasoning-stem`	Scenari scientifici di risoluzione dei problemi incentrati sull'analisi metodica e sullo sviluppo di soluzioni
`rag`	Esempi di combinazione efficace delle conoscenze esterne recuperate con le risposte generate per fornire informazioni contestuali accurate
`translation`	Combinazioni di contenuti multilingue che mostrano una traduzione accurata preservando il contesto, il tono e le sfumature culturali

Guida ai parametri

dataset_catalog: L'unico valore è cpt_text_lite per ora, finché non abilitiamo l'addestramento multimodale.
nova_data: percentuale delle singole categorie di dati Nova quando vengono mescolati. Dovrebbero sommarsi fino a 1,0.
customer_data: la percentuale di dati del cliente mescolati ai dati Nova.

Il numero totale di token utilizzati nella formazione può essere calcolato da* * max_length global_batch_size max_steps

Limitazioni

L'attuale CPT supporta solo dati di testo e non supporta alcun set di dati multimodale del cliente.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Accesso e configurazione di Nova Forge

Ottimizzazione di precisione supervisionata