Parametri per l'ottimizzazione di modelli linguistici di grandi dimensioni in Autopilot

La sezione seguente descrive le metriche che è possibile utilizzare per comprendere i modelli di linguaggio di grandi dimensioni ottimizzati (). LLMs Utilizzando il set di dati, Autopilot ottimizza direttamente un LLM target per migliorare una metrica oggettiva predefinita, la perdita di entropia incrociata.

La perdita di entropia incrociata è un parametro ampiamente utilizzato per valutare la differenza tra la distribuzione di probabilità prevista e la distribuzione effettiva delle parole nei dati di addestramento. Riducendo al minimo la perdita di entropia incrociata, il modello impara a fare previsioni più accurate e contestualmente pertinenti, in particolare nelle attività relative alla generazione di testo.

Dopo aver perfezionato un LLM, è possibile valutare la qualità del testo generato utilizzando una serie di ROUGE punteggi. Inoltre, è possibile analizzare le perplessità e le perdite di addestramento e convalida tra entropia incrociata come parte del processo di valutazione.

La perdita di perplessità misura la capacità del modello di prevedere la parola successiva in una sequenza di testo, mentre valori più bassi indicano una migliore comprensione della lingua e del contesto.
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) è un insieme di metriche utilizzate nel campo dell'elaborazione del linguaggio naturale (NLP) e dell'apprendimento automatico per valutare la qualità del testo generato automaticamente, come il riepilogo o la generazione di testo. Valuta principalmente le somiglianze tra il testo generato e il testo di riferimento fondamentale (scritto dall'uomo) di un set di dati di convalida. ROUGE le misure sono progettate per valutare vari aspetti della somiglianza del testo, tra cui la precisione e il richiamo degli n-grammi (sequenze contigue di parole) nei testi generati dal sistema e di riferimento. L'obiettivo è valutare la capacità di un modello di catturare le informazioni presenti nel testo di riferimento.

Esistono diverse varianti di ROUGE metriche, a seconda del tipo di n-grammi utilizzati e degli aspetti specifici della qualità del testo oggetto di valutazione.

L'elenco seguente contiene il nome e la descrizione del ROUGE metriche disponibili dopo la messa a punto di modelli linguistici di grandi dimensioni in Autopilot.

ROUGE-1, ROUGE-2

ROUGE-N, il principale ROUGE metrica, misura la sovrapposizione di n-grammi tra i testi generati dal sistema e quelli di riferimento. ROUGE-N può essere regolato in base a diversi valori di n (here 1 or2) per valutare la capacità del testo generato dal sistema di catturare gli n-grammi dal testo di riferimento.

ROUGE-L

ROUGE-L (ROUGE-Longest Sottosequenza comune) calcola la sottosequenza comune più lunga tra il testo generato dal sistema e il testo di riferimento. Questa variante considera l'ordine delle parole oltre alla sovrapposizione dei contenuti.

ROUGE-L-Sum

ROUGE-L-SUM (Longest Common Sequentience for Summarization) è progettato per la valutazione dei sistemi di riepilogo del testo. Si concentra sulla misurazione della sottosequenza comune più lunga tra il riepilogo generato automaticamente e il riepilogo di riferimento. ROUGE-L-SUM tiene conto dell'ordine delle parole nel testo, che è importante nelle attività di riepilogo del testo.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Iperparametri

Implementazione e previsioni dei modelli