Valutazione dei modelli ML - Amazon Machine Learning

Non aggiorniamo più il servizio Amazon Machine Learning né accettiamo nuovi utenti. Questa documentazione è disponibile per gli utenti esistenti, ma non la aggiorneremo più. Per ulteriori informazioni, consulta la paginaCos'è Amazon Machine Learning.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Valutazione dei modelli ML

È sempre consigliabile valutare un modello per determinare se riuscirà a predire correttamente la destinazione per i dati nuovi e futuri. Poiché le istanze future hanno valori di destinazione ignoti, è necessario verificare il parametro di accuratezza del modello ML su dati dei quali si conosce già la risposta target e utilizzare questa valutazione come proxy per la precisione predittiva sui dati futuri.

Per la corretta valutazione di un modello, si tiene un campione di dati dell'origine dati per l'addestramento che è stato etichettato con la destinazione (dati acquisiti sul campo). Non è utile valutare la precisione predittiva di un modello ML con gli stessi dati utilizzati per l'addestramento, perché in questo modo si premiano modelli in grado di "ricordare" i dati di addestramento, anziché utilizzarli per la generalizzazione. Una volta finito di addestrare il modello ML, è possibile inviare al modello le osservazioni utilizzate di cui si conoscono i valori di destinazione. Si confrontano, quindi, le previsioni restituite dal modello ML con il valore noto di destinazione. Infine, si calcola un parametro riepilogativo che indica quanto è elevato il grado di corrispondenza tra i valori previsti e quelli reali.

In Amazon ML, si valuta un modello ML mediantecreazione di una valutazione. Per creare una valutazione per un modello di ML, è necessario disporre di un modello ML da valutare e occorrono dati etichettati che non siano stati utilizzato per l'addestramento. In primo luogo, si crea un'origine dati per la valutazione creando un'origine dati Amazon ML con i dati utilizzati. I dati utilizzati nella valutazione devono avere lo stesso schema di quelli utilizzati per l'addestramento e includere i valori effettivi della variabile di destinazione.

Se tutti i dati sono in un unico file o directory, è possibile utilizzare la console di Amazon ML per dividere i dati. Il percorso di default nella procedura guidata Crea un modello ML divide l'origine dati di input e utilizza il primo 70% per un'origine dati di addestramento e il restante 30% per un'origine dati di valutazione. È anche possibile personalizzare il rapporto di divisione utilizzando l'opzione Custom (Personalizza) nella procedura guidata Crea un modello ML, dove è possibile selezionare un campione casuale del 70% per l'addestramento e utilizzare il restante 30% per la valutazione. Per specificare ulteriormente le proporzioni di divisione personalizzate, si può utilizzare la stringa di riordino dei dati nell'API Crea origine dati. Una volta che si dispone di un'origine dati di valutazione e di un modello ML, è possibile creare una valutazione ed esaminare i risultati della valutazione.

Prevenzione dell'overfitting

Durante la creazione e l'addestramento di un modello ML, l'obiettivo è selezionare il modello che consente di ottenere le migliori previsioni, il che significa selezionare il modello con le impostazioni migliori (impostazioni del modello ML o iperparametri). In Amazon Machine Learning, esistono quattro iperparametri che è possibile impostare: numero di passate, regolarizzazione, dimensioni del modello e tipo di riproduzione casuale. Tuttavia, se si seleziona le impostazioni dei parametri del modello che producono le "migliori" prestazioni predittive riguardo alla valutazione dei dati, si potrebbe provocare un overfitting del modello. L'overfitting si verifica quando un modello ha memorizzato pattern che si verificano nelle origini dati di addestramento e valutazione, ma non è riuscito a generalizzare i pattern nei dati. Si verifica spesso quando i dati di addestramento includono tutti i dati utilizzati nella valutazione. Un modello con overfitting si comporta correttamente durante le valutazioni, ma non riesce a eseguire previsioni precise sui dati invisibili.

Per evitare di scegliere un modello con overfitting come il miglior modello, è possibile prenotare dati aggiuntivi per convalidare le prestazioni del modello ML. Ad esempio, è possibile dividere i dati in 60% per l'addestramento, 20% per la valutazione e un ulteriore 20% per la convalida. Dopo aver selezionato i parametri del modello più adatti ai dati di valutazione, è possibile eseguire una seconda valutazione con i dati di convalida per controllare quanto è elevata la qualità delle prestazioni del modello ML con i dati di convalida. Se il modello soddisfa le aspettative riguardo ai dati di convalida, non sta effettuando l'overfitting dei dati.

L'utilizzo di una terza serie di dati per la convalida consente di selezionare i parametri del modello ML più adatti a evitare l'overfitting. Tuttavia, se si trattengono dati del processo di addestramento per la valutazione e la convalida, vi sono meno dati disponibili per l'addestramento. Questo è un problema soprattutto con serie di dati di dimensioni ridotte, perché è sempre consigliabile utilizzare quanti più dati possibile per l'addestramento. Per risolvere questo problema, è possibile eseguire la convalida incrociata. Per ulteriori informazioni sulla convalida incrociata, consultare Convalida incrociata.