Parametri per l'ottimizzazione di modelli linguistici di grandi dimensioni in Autopilot - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Parametri per l'ottimizzazione di modelli linguistici di grandi dimensioni in Autopilot

Utilizzando il tuo set di dati, Autopilot perfeziona direttamente un modello di linguaggio (LLM) di destinazione per migliorare un parametro oggettivo predefinito, la perdita di entropia incrociata.

La perdita di entropia incrociata è un parametro ampiamente utilizzato per valutare la differenza tra la distribuzione di probabilità prevista e la distribuzione effettiva delle parole nei dati di addestramento. Riducendo al minimo la perdita di entropia incrociata, il modello impara a fare previsioni più accurate e contestualmente pertinenti, in particolare nelle attività relative alla generazione di testo.

Dopo aver perfezionato un LLM, puoi valutare la qualità del testo generato utilizzando una serie di punteggi. ROUGE Inoltre, è possibile analizzare le perplessità e le perdite di addestramento e convalida tra entropia incrociata come parte del processo di valutazione.

  • La perdita di perplessità misura la capacità del modello di prevedere la parola successiva in una sequenza di testo, mentre valori più bassi indicano una migliore comprensione della lingua e del contesto.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE)è un insieme di metriche utilizzate nel campo dell'elaborazione del linguaggio naturale (NLP) e dell'apprendimento automatico per valutare la qualità del testo generato automaticamente, come il riepilogo o la generazione di testo. Valuta principalmente le somiglianze tra il testo generato e il testo di riferimento fondamentale (scritto dall'uomo) di un set di dati di convalida. ROUGEle misure sono progettate per valutare vari aspetti della somiglianza del testo, tra cui la precisione e il richiamo degli n-grammi (sequenze di parole contigue) nei testi generati dal sistema e di riferimento. L'obiettivo è valutare la capacità di un modello di catturare le informazioni presenti nel testo di riferimento.

    Esistono diverse varianti di ROUGE metriche, a seconda del tipo di n-grammi utilizzati e degli aspetti specifici della qualità del testo da valutare.

    L'elenco seguente contiene il nome e la descrizione delle ROUGE metriche disponibili dopo la messa a punto di modelli linguistici di grandi dimensioni in Autopilot.

    ROUGE-1, ROUGE-2

    ROUGE-N, la ROUGE metrica principale, misura la sovrapposizione di n-grammi tra i testi generati dal sistema e quelli di riferimento. ROUGE-Npuò essere regolato in base a diversi valori di n (here 1 or2) per valutare la capacità del testo generato dal sistema di catturare gli n-grammi dal testo di riferimento.

    ROUGE-L

    ROUGE-L(Sottosequenza ROUGE-Longest comune) calcola la sottosequenza comune più lunga tra il testo generato dal sistema e il testo di riferimento. Questa variante considera l'ordine delle parole oltre alla sovrapposizione dei contenuti.

    ROUGE-L-Sum

    ROUGE-L-SUM(Longest Common Sequentience for Summarization) è progettato per la valutazione dei sistemi di riepilogo del testo. Si concentra sulla misurazione della sottosequenza comune più lunga tra il riepilogo generato automaticamente e il riepilogo di riferimento. ROUGE-L-SUMtiene conto dell'ordine delle parole nel testo, che è importante nelle attività di riepilogo del testo.