SageMaker Lavori di formazione sull'intelligenza artificiale - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker Lavori di formazione sull'intelligenza artificiale

La personalizzazione dei modelli Amazon Nova Amazon SageMaker Training Jobs segue un flusso di lavoro strutturato progettato per semplificare il complesso processo di ottimizzazione di modelli linguistici di grandi dimensioni. Questo end-to-end flusso di lavoro comprende l'addestramento, la valutazione e l'implementazione dei modelli per l'inferenza. Per ulteriori informazioni, consulta Personalizzazione dei modelli Amazon Nova nella Amazon SageMaker AI Developer Guide.

Con Amazon SageMaker AI, puoi perfezionare i modelli base preformati esistenti, come Amazon Nova, senza addestrare i tuoi modelli da zero. Le seguenti sezioni descrivono in dettaglio le opzioni di ottimizzazione dell' SageMaker intelligenza artificiale quando si lavora con i modelli di base di Amazon Nova.

Ottimizzazione completa

La messa a punto completa modifica tutti i parametri del modello di base per ottimizzarne le prestazioni per attività o domini specifici. Questo approccio completo aggiorna l'intera architettura del modello, consentendo adattamenti più profondi rispetto ai metodi basati su adattatori. Per ulteriori informazioni, consulta Fine-tuning Foundation Models.

Come funziona il fine-tuning completo

Durante la messa a punto completa, il modello impara aggiornando tutti i suoi parametri utilizzando i dati di allenamento. Questo processo di perfezionamento completo:

  • Consente al modello di sviluppare conoscenze specializzate per il tuo dominio.

  • Consente modifiche significative alle rappresentazioni sottostanti del modello.

  • Richiede più risorse di calcolo rispetto ai metodi basati su adattatori, ma può ottenere prestazioni migliori per attività specifiche.

Quando scegliere il fine-tuning completo

Ti consigliamo di utilizzare la regolazione di precisione a livello completo nei seguenti scenari:

  • Quando la regolazione fine di LoRa PEFT non raggiunge i livelli di prestazioni desiderati.

  • Per domini specializzati che richiedono competenze approfondite (ad esempio in campo medico, legale o tecnico).

  • Quando disponi di set di dati di grandi dimensioni e di alta qualità per il tuo caso d'uso.

  • Quando i requisiti di precisione superano le considerazioni relative ai costi di calcolo.

  • Per applicazioni che richiedono una deviazione significativa dal comportamento del modello base.

Ottimizzazione di adattatori di basso livello

Il metodo più efficace ed economico per migliorare le prestazioni del modello base è la regolazione fine efficiente dei parametri degli adattatori di basso livello (LoRa PEFT). Il principio alla base di LoRa PEFT è che solo un numero limitato di pesi aggiuntivi richiede l'aggiornamento per adattarlo a nuove attività o domini.

LoRa PEFT perfeziona in modo efficiente i modelli di base introducendo matrici di pesi di basso rango e addestrabili in strati specifici del modello, riducendo il numero di parametri addestrabili e mantenendo la qualità del modello. Un adattatore LoRa PEFT amplia il modello base incorporando strati adattatori leggeri che modificano i pesi del modello durante l'inferenza, mantenendo intatti i parametri del modello originale. Questo approccio è anche considerato una delle tecniche di messa a punto più convenienti. Per ulteriori informazioni, consulta Ottimizzazione dei modelli con componenti di inferenza dell'adattatore.

Quando scegliere LoRa PEFT

Consigliamo di utilizzare LoRa PEFT nei seguenti scenari:

  • In genere dovresti iniziare con LoRa PEFT rispetto ad altri metodi di ottimizzazione perché è una procedura di formazione rapida.

  • LoRa PEFT è efficace nei casi in cui le prestazioni del modello base sono già soddisfacenti. In questo caso, l'obiettivo di LoRa PEFT è quello di migliorare le sue capacità in molteplici attività correlate, come il riepilogo del testo o la traduzione linguistica. Le proprietà di regolarizzazione di LoRa PEFT aiutano anche a prevenire l'overfit e a mitigare i rischi che il modello «dimentichi» il dominio di origine. Ciò garantisce che il modello rimanga versatile e adattabile a varie applicazioni.

  • È possibile utilizzare LoRa PEFT per la messa a punto delle istruzioni in scenari con set di dati relativamente piccoli. LoRa PEFT offre prestazioni migliori con set di dati più piccoli e specifici per attività rispetto a set di dati più ampi e più grandi.

  • Per set di dati etichettati di grandi dimensioni che superano i limiti di personalizzazione di Amazon Bedrock, puoi utilizzare LoRa PEFT on SageMaker AI per generare risultati migliori.

  • Se hai già ottenuto risultati promettenti tramite la messa a punto di Amazon Bedrock, LoRa PEFT on SageMaker AI può aiutarti a ottimizzare ulteriormente gli iperparametri del modello.

Ottimizzazione diretta delle preferenze

L'ottimizzazione diretta delle preferenze (DPO) è un metodo di ottimizzazione efficiente per i modelli di base che utilizza dati di confronto accoppiati per allineare gli output del modello alle preferenze umane. Questo approccio fornisce l'ottimizzazione diretta del comportamento del modello sulla base del feedback umano su quali risposte sono più desiderabili.

Perché il DPO è importante

I modelli di base basati su dati su larga scala spesso generano risultati che potrebbero essere effettivamente corretti, ma non sono in linea con le esigenze specifiche degli utenti, i valori organizzativi o i requisiti di sicurezza. Il DPO colma questa lacuna consentendoti di effettuare le seguenti operazioni:

  • Ottimizza i modelli in base ai modelli di comportamento desiderati.

  • Riduci gli output indesiderati o le risposte dannose.

  • Allinea le risposte del modello alle linee guida in materia di voce e comunicazione del marchio.

  • Migliora la qualità delle risposte in base al feedback degli esperti del settore.

Come funziona il DPO

Il DPO utilizza esempi accoppiati in cui valutatori umani indicano quale delle due possibili risposte è preferita. Il modello impara a massimizzare la probabilità di generare risposte preferite riducendo al minimo quelle indesiderate. È possibile implementare il DPO utilizzando una delle seguenti tecniche:

  • DPO completo: aggiorna tutti i parametri del modello per ottimizzare le risposte preferite.

  • DPO basato su LoRa: utilizza adattatori leggeri per apprendere gli allineamenti delle preferenze, che richiedono meno risorse computazionali.

Quando scegliere DPO

Consigliamo di utilizzare DPO nei seguenti scenari:

  • Ottimizzazione per gli output soggettivi che richiedono l'allineamento con preferenze umane specifiche.

  • Regolazione del tono, dello stile o delle caratteristiche del contenuto del modello in base ai modelli di risposta desiderati.

  • Apportare miglioramenti mirati a un modello esistente sulla base del feedback degli utenti e dell'analisi degli errori.

  • Mantenimento di una qualità di output costante in diversi casi d'uso.

  • Implementazione di barriere di sicurezza attraverso modelli di risposta preferiti.

  • Formazione con apprendimento per rinforzo senza ricompense.

  • Utilizzando solo dati di preferenza anziché dati classificati o etichettati.

  • Miglioramento del modello in attività di allineamento articolate, come la disponibilità, l'innocuità o l'onestà.

Il DPO è efficace per affinare in modo iterativo il comportamento del modello attraverso set di dati di preferenze attentamente selezionati che mostrano gli output desiderati rispetto a quelli indesiderati. La flessibilità del metodo nel supportare approcci completi e basati su LoRa consente di scegliere l'implementazione più adatta in base alle risorse di calcolo e ai requisiti specifici.

Distillazione

La distillazione di modelli è un metodo che trasferisce le conoscenze da modelli avanzati di grandi dimensioni a modelli più piccoli ed efficienti. Con i modelli Amazon Nova, un modello «insegnante» più ampio (come Amazon Nova Pro o Amazon Nova Premier) trasferisce le sue funzionalità a un modello «studente» più piccolo (come Amazon Nova Lite o Amazon Nova Micro). Questo crea un modello personalizzato che mantiene prestazioni elevate utilizzando meno risorse.

Per informazioni su come completare questa operazione utilizzando SageMaker AI Training Jobs, consulta Amazon Nova distillation.