Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Parametri per l'ottimizzazione di modelli linguistici di grandi dimensioni in Autopilot

Modalità Focus
Parametri per l'ottimizzazione di modelli linguistici di grandi dimensioni in Autopilot - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

La sezione seguente descrive le metriche che è possibile utilizzare per comprendere i modelli di linguaggio di grandi dimensioni ottimizzati (). LLMs Utilizzando il set di dati, Autopilot ottimizza direttamente un LLM target per migliorare una metrica oggettiva predefinita, la perdita di entropia incrociata.

La perdita di entropia incrociata è un parametro ampiamente utilizzato per valutare la differenza tra la distribuzione di probabilità prevista e la distribuzione effettiva delle parole nei dati di addestramento. Riducendo al minimo la perdita di entropia incrociata, il modello impara a fare previsioni più accurate e contestualmente pertinenti, in particolare nelle attività relative alla generazione di testo.

Dopo aver perfezionato un LLM, è possibile valutare la qualità del testo generato utilizzando una serie di ROUGE punteggi. Inoltre, è possibile analizzare le perplessità e le perdite di addestramento e convalida tra entropia incrociata come parte del processo di valutazione.

  • La perdita di perplessità misura la capacità del modello di prevedere la parola successiva in una sequenza di testo, mentre valori più bassi indicano una migliore comprensione della lingua e del contesto.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE) è un insieme di metriche utilizzate nel campo dell'elaborazione del linguaggio naturale (NLP) e dell'apprendimento automatico per valutare la qualità del testo generato automaticamente, come il riepilogo o la generazione di testo. Valuta principalmente le somiglianze tra il testo generato e il testo di riferimento fondamentale (scritto dall'uomo) di un set di dati di convalida. ROUGE le misure sono progettate per valutare vari aspetti della somiglianza del testo, tra cui la precisione e il richiamo degli n-grammi (sequenze contigue di parole) nei testi generati dal sistema e di riferimento. L'obiettivo è valutare la capacità di un modello di catturare le informazioni presenti nel testo di riferimento.

    Esistono diverse varianti di ROUGE metriche, a seconda del tipo di n-grammi utilizzati e degli aspetti specifici della qualità del testo oggetto di valutazione.

    L'elenco seguente contiene il nome e la descrizione del ROUGE metriche disponibili dopo la messa a punto di modelli linguistici di grandi dimensioni in Autopilot.

    ROUGE-1, ROUGE-2

    ROUGE-N, il principale ROUGE metrica, misura la sovrapposizione di n-grammi tra i testi generati dal sistema e quelli di riferimento. ROUGE-N può essere regolato in base a diversi valori di n (here 1 or2) per valutare la capacità del testo generato dal sistema di catturare gli n-grammi dal testo di riferimento.

    ROUGE-L

    ROUGE-L (ROUGE-Longest Sottosequenza comune) calcola la sottosequenza comune più lunga tra il testo generato dal sistema e il testo di riferimento. Questa variante considera l'ordine delle parole oltre alla sovrapposizione dei contenuti.

    ROUGE-L-Sum

    ROUGE-L-SUM (Longest Common Sequentience for Summarization) è progettato per la valutazione dei sistemi di riepilogo del testo. Si concentra sulla misurazione della sottosequenza comune più lunga tra il riepilogo generato automaticamente e il riepilogo di riferimento. ROUGE-L-SUM tiene conto dell'ordine delle parole nel testo, che è importante nelle attività di riepilogo del testo.

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.