Fitting del modello: underfitting e overfitting

La comprensione di quale sia il modello adatto è importante per capire la causa principale della scarsa accuratezza del modello. La comprensione di tale aspetto consentirà di trovare misure correttive. È possibile determinare se un modello predittivo è soggetto a underfitting o overfitting dei dati di addestramento esaminando l'errore di previsione sui dati di addestramento e sui dati di valutazione.

Three graphs showing underfitting, balanced, and overfitting models with data points and trend lines.

Il modello è soggetto a underfitting dei dati di addestramento quando ha prestazioni scarse sui dati di addestramento. Questo avviene perché il modello non è in grado di acquisire il rapporto tra gli esempi di input (spesso chiamati X) e i valori target (spesso chiamati Y). Il modello è soggetto a overfitting dei dati di addestramento quando si vede che il modello di funziona bene con i dati di addestramento, ma non con i dati di valutazione. Questo avviene perché il modello memorizza i dati che ha visto e non è in grado di generalizzare gli esempi che non ha visto.

Le scarse prestazioni sui dati di addestramento potrebbero essere dovute al fatto che il modello è troppo semplice (le caratteristiche in ingresso non sono abbastanza espressive) per descrivere correttamente il target. È possibile migliorare le prestazioni aumentando la flessibilità del modello. Per aumentare la flessibilità del modello si può provare quanto segue:

Aggiungere nuove caratteristiche specifiche per il dominio e più prodotti cartesiani delle caratteristiche e modificare il tipo di elaborazione delle caratteristiche utilizzato (ad esempio, aumentando la dimensione degli n-grammi)
Diminuire la quantità di regolarizzazione utilizzata

Se il modello effettua l'overfitting dei dati di addestramento, è opportuno intervenire per ridurre la flessibilità del modello. Per ridurre la flessibilità del modello si può provare quanto segue:

Selezione delle caratteristiche: si può considerare l'utilizzo di un numero inferiore di combinazioni delle caratteristiche, la diminuzione della dimensione degli n-grammi e la riduzione del numero di bin di attributi numerici.
Aumentare la quantità di regolarizzazione utilizzata.

L'accuratezza sui dati di addestramento e sui dati di prova potrebbe essere scarsa perché l'algoritmo di apprendimento non ha avuto a disposizione abbastanza dati da cui apprendere. È possibile migliorare le prestazioni nel seguente modo:

Aumentare la quantità di esempi di addestramento.
Aumentare il numero di passate sui dati di addestramento esistenti.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Miglioramento dell'accuratezza del modello

Utilizzo del modello per effettuare previsioni