Riferimento alle metriche - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Riferimento alle metriche

Le seguenti sezioni descrivono le metriche disponibili in Amazon SageMaker Canvas per ogni tipo di modello.

Parametri per la previsione numerica

L'elenco seguente definisce le metriche per la previsione numerica in SageMaker Canvas e fornisce informazioni su come utilizzarle.

  • InferenceLatency — Il periodo di tempo approssimativo che intercorre tra l'invio di una richiesta di previsione del modello e la sua ricezione da un endpoint in tempo reale su cui viene distribuito il modello. Questa metrica viene misurata in secondi ed è disponibile solo per i modelli creati con la modalità Ensembling.

  • MAE: Errore assoluto medio. In media, la previsione per la colonna di destinazione è pari a +/- {MAE} rispetto al valore effettivo.

    Misura la differenza tra i valori previsti e quelli effettivi quando viene calcolata la media di tutti i valori. Il MAE è comunemente usato nella previsione numerica per comprendere l'errore di previsione del modello. Se le previsioni sono lineari, MAE rappresenta la distanza media tra una linea prevista e il valore effettivo. La MAE è definita come la somma degli errori assoluti divisa per il numero di osservazioni. I valori sono compresi tra 0 e infinito, con numeri più piccoli che indicano una migliore adattabilità del modello ai dati.

  • MAPE: Errore assoluto medio percentuale. In media, la previsione per la colonna di destinazione è pari a +/- {MAPE}% rispetto al valore effettivo.

    MAPE è la media delle differenze assolute tra i valori effettivi e i valori previsti o stimati, divisa per i valori effettivi ed espressa in percentuale. Un MAPE inferiore indica prestazioni migliori, in quanto significa che i valori previsti o stimati sono più vicini ai valori effettivi.

  • MSE — Errore quadratico medio, ovvero la media delle differenze quadratiche tra i valori previsti e quelli effettivi.

    I valori MSE sono sempre positivi. Quanto più un modello è in grado di prevedere i valori effettivi, tanto più piccolo è il valore MSE.

  • R2: Percentuale della differenza nella colonna di destinazione che può essere spiegata dalla colonna di input.

    Quantifica in che misura un modello può spiegare la varianza di una variabile dipendente. I valori sono compresi tra uno (1) e meno uno (-1). I numeri più alti indicano una frazione più alta della variabilità spiegata. I valori vicini allo zero (0) indicano che il modello può spiegare una minima parte della variabile dipendente. I valori negativi indicano un adattamento inadeguato e che il modello è superato da una funzione costante (o da una linea orizzontale).

  • RMSE — Errore quadratico medio o deviazione standard degli errori.

    Misura la radice quadrata della differenza quadrata tra i valori previsti e quelli effettivi e viene calcolata la media di tutti i valori. Viene utilizzata per comprendere gli errori di previsione del modello ed è una metrica importante per indicare la presenza di errori e valori anomali di grandi dimensioni. I valori sono compresi tra zero (0) e infinito, con numeri più piccoli che indicano una migliore adattabilità del modello ai dati. RMSE dipende dalla scala e non deve essere utilizzato per confrontare set di dati di tipi diversi.

Metriche per la previsione categorica

Questa sezione definisce le metriche per la previsione categorica in SageMaker Canvas e fornisce informazioni su come utilizzarle.

Di seguito è riportato un elenco di metriche disponibili per la previsione a 2 categorie:

  • Accuratezza: la percentuale di previsioni corrette.

    Oppure, il rapporto tra il numero di elementi correttamente previsti e il numero totale di previsioni. La precisione misura quanto i valori delle classi previsti si avvicinano ai valori effettivi. I valori per i parametri di precisione variano tra zero (0) e uno (1). Un valore pari a 1 indica una precisione perfetta e 0 indica una completa imprecisione.

  • AUC: un valore compreso tra 0 e 1 che indica quanto il modello sia in grado di separare le categorie nel set di dati. Un valore di 1 indica che è stato in grado di separare perfettamente le categorie.

  • BalancedAccuracy — Misura il rapporto tra previsioni accurate e tutte le previsioni.

    Questo rapporto viene calcolato dopo aver normalizzato i veri positivi (TP) e i veri negativi (TN) in base al numero totale di valori positivi (P) e negativi (N). È definito come segue:0.5*((TP/P)+(TN/N)), con valori compresi tra 0 e 1. La metrica di precisione bilanciata fornisce una migliore misura della precisione quando il numero di aspetti positivi o negativi differisce notevolmente l'uno dall'altro in un set di dati sbilanciato, ad esempio quando solo l'1% delle e-mail è spam.

  • F1: una misura di accuratezza bilanciata che tiene conto dell'equilibrio della classe.

    È la media armonica dei punteggi di precisione e richiamo, definita come segue:. F1 = 2 * (precision * recall) / (precision + recall) I punteggi di F1 variano tra 0 e 1. Un punteggio pari a 1 indica la migliore prestazione possibile, mentre 0 indica la peggiore.

  • InferenceLatency — Il periodo di tempo approssimativo che intercorre tra la richiesta di una previsione del modello e la sua ricezione da un endpoint in tempo reale su cui viene distribuito il modello. Questa metrica viene misurata in secondi ed è disponibile solo per i modelli creati con la modalità Ensembling.

  • LogLoss — La perdita di log, nota anche come perdita di entropia incrociata, è una metrica utilizzata per valutare la qualità degli output di probabilità, anziché gli output stessi. La perdita di log è un parametro importante per indicare quando un modello effettua previsioni errate con probabilità elevate. I valori tipici sono compresi tra 0 e infinito. Il valore 0 rappresenta un modello che prevede perfettamente i dati.

  • Precisione: di tutte le volte in cui è stata prevista {category x}, la previsione era corretta il {precisione}% delle volte.

    La precisione misura la capacità di un algoritmo di prevedere i veri positivi (TP) tra tutti i positivi che identifica. È definita come segue:Precision = TP/(TP+FP), con valori compresi tra zero (0) e uno (1). La precisione è un parametro importante quando il costo di un falso positivo è elevato. Ad esempio, il costo di un falso positivo è molto elevato se un sistema di sicurezza aereo viene erroneamente considerato sicuro da pilotare. Un falso positivo (FP) riflette una previsione positiva che in realtà è negativa nei dati.

  • Richiamo: il modello prevedeva correttamente che {recall}% fosse {category x} quando {target_column} era effettivamente {category x}.

    Il recupero misura la capacità di un algoritmo di prevedere correttamente tutti i veri positivi (TP) in un set di dati. Un vero positivo è una previsione positiva che è anche un valore positivo effettivo dei dati. Il richiamo è definito come segue:Recall = TP/(TP+FN), con valori compresi tra 0 e 1. I punteggi più alti riflettono una migliore capacità del modello di prevedere i veri positivi (TP) nei dati. Si noti che spesso non è sufficiente misurare solo il richiamo, perché prevedendo ogni output come un vero risultato positivo si ottiene un punteggio di richiamo perfetto.

Di seguito è riportato un elenco di metriche disponibili per la previsione di più di 3 categorie:

  • Accuratezza: la percentuale di previsioni corrette.

    Oppure, il rapporto tra il numero di elementi correttamente previsti e il numero totale di previsioni. La precisione misura quanto i valori delle classi previsti si avvicinano ai valori effettivi. I valori per i parametri di precisione variano tra zero (0) e uno (1). Un valore pari a 1 indica una precisione perfetta e 0 indica una completa imprecisione.

  • BalancedAccuracy — Misura il rapporto tra previsioni accurate e tutte le previsioni.

    Questo rapporto viene calcolato dopo aver normalizzato i veri positivi (TP) e i veri negativi (TN) in base al numero totale di valori positivi (P) e negativi (N). È definito come segue:0.5*((TP/P)+(TN/N)), con valori compresi tra 0 e 1. La metrica di precisione bilanciata fornisce una migliore misura della precisione quando il numero di aspetti positivi o negativi differisce notevolmente l'uno dall'altro in un set di dati sbilanciato, ad esempio quando solo l'1% delle e-mail è spam.

  • F1macro — Il punteggio F1macro applica il punteggio F1 calcolando la precisione e il richiamo, quindi utilizza la media armonica per calcolare il punteggio F1 per ogni classe. Quindi, F1macro calcola la media dei punteggi individuali per ottenere il punteggio F1macro. I punteggi F1macro variano tra 0 e 1. Un punteggio pari a 1 indica la migliore prestazione possibile, mentre 0 indica la peggiore.

  • InferenceLatency — Il periodo di tempo approssimativo che intercorre tra l'invio di una richiesta di previsione del modello e la sua ricezione da un endpoint in tempo reale su cui viene distribuito il modello. Questa metrica viene misurata in secondi ed è disponibile solo per i modelli creati con la modalità Ensembling.

  • LogLoss — La perdita di log, nota anche come perdita di entropia incrociata, è una metrica utilizzata per valutare la qualità degli output di probabilità, anziché gli output stessi. La perdita di log è un parametro importante per indicare quando un modello effettua previsioni errate con probabilità elevate. I valori tipici sono compresi tra 0 e infinito. Il valore 0 rappresenta un modello che prevede perfettamente i dati.

  • PrecisionMacro — Misura la precisione calcolando la precisione per ogni classe e calcolando la media dei punteggi per ottenere la precisione per diverse classi. I punteggi vanno da zero (0) a uno (1). I punteggi più alti riflettono la capacità del modello di prevedere i veri positivi (TP) tra tutti i positivi che identifica, calcolando la media tra più classi.

  • RecallMacro — Misura il richiamo calcolando il richiamo per ogni classe e calcolando la media dei punteggi per ottenere il richiamo per diverse classi. I punteggi vanno da 0 a 1. I punteggi più alti riflettono la capacità del modello di prevedere i veri positivi (TP) in un set di dati, mentre un vero positivo riflette una previsione positiva che è anche un valore positivo effettivo nei dati. Spesso non è sufficiente misurare solo il recupero, perché prevedendo ogni output come un vero positivo si otterrà un punteggio di recupero perfetto.

Tieni presente che per la previsione di più di 3 categorie, ricevi anche le metriche medie di F1, Accuracy, Precision e Recall. I punteggi di queste metriche sono solo i punteggi metrici medi per tutte le categorie.

Metriche per la previsione di immagini e testo

Di seguito è riportato un elenco di metriche disponibili per la previsione di immagini e di testo.

  • Accuratezza: la percentuale di previsioni corrette.

    Oppure, il rapporto tra il numero di elementi correttamente previsti e il numero totale di previsioni. La precisione misura quanto i valori delle classi previsti si avvicinano ai valori effettivi. I valori per i parametri di precisione variano tra zero (0) e uno (1). Un valore pari a 1 indica una precisione perfetta e 0 indica una completa imprecisione.

  • F1: una misura di accuratezza bilanciata che tiene conto dell'equilibrio della classe.

    È la media armonica dei punteggi di precisione e richiamo, definita come segue:. F1 = 2 * (precision * recall) / (precision + recall) I punteggi di F1 variano tra 0 e 1. Un punteggio pari a 1 indica la migliore prestazione possibile, mentre 0 indica la peggiore.

  • Precisione: di tutte le volte in cui è stata prevista la {categoria x}, la previsione era corretta il {precisione}% delle volte.

    La precisione misura la capacità di un algoritmo di prevedere i veri positivi (TP) tra tutti i positivi che identifica. È definita come segue:Precision = TP/(TP+FP), con valori compresi tra zero (0) e uno (1). La precisione è un parametro importante quando il costo di un falso positivo è elevato. Ad esempio, il costo di un falso positivo è molto elevato se un sistema di sicurezza aereo viene erroneamente considerato sicuro da pilotare. Un falso positivo (FP) riflette una previsione positiva che in realtà è negativa nei dati.

  • Richiamo: il modello prevedeva correttamente che {recall}% fosse {category x} quando {target_column} era effettivamente {category x}.

    Il recupero misura la capacità di un algoritmo di prevedere correttamente tutti i veri positivi (TP) in un set di dati. Un vero positivo è una previsione positiva che è anche un valore positivo effettivo dei dati. Il richiamo è definito come segue:Recall = TP/(TP+FN), con valori compresi tra 0 e 1. I punteggi più alti riflettono una migliore capacità del modello di prevedere i veri positivi (TP) nei dati. Si noti che spesso non è sufficiente misurare solo il richiamo, perché prevedendo ogni output come un vero risultato positivo si ottiene un punteggio di richiamo perfetto.

Tieni presente che per i modelli di previsione di immagini e testo in cui prevedi 3 o più categorie, ricevi anche le metriche medie di F1, Accuratezza, Precisione e Richiamo. I punteggi di queste metriche sono solo la media dei punteggi metrici per tutte le categorie.

Parametri per le previsioni di serie temporali

Di seguito vengono definite le metriche avanzate per le previsioni delle serie temporali in Amazon SageMaker Canvas e vengono fornite informazioni su come utilizzarle.

  • Perdita quantile ponderata media (wQL): valuta la previsione calcolando la media dell’accuratezza sui quantili P10, P50 e P90. Un valore più basso indica un modello più accurato.

  • Errore percentuale assoluto ponderato (WAPE): la somma dell'errore assoluto normalizzata per la somma dell'obiettivo assoluto, che misura la deviazione complessiva dei valori previsti dai valori osservati. Un valore più basso indica un modello più accurato, dove WAPE = 0 è un modello senza nessun errore.

  • Radice dell’errore quadratico medio (RMSE): la radice quadrata degli errori quadratici medi. Un valore RMSE più basso indica un modello più accurato, dove RMSE = 0 è un modello senza nessun errore.

  • Errore assoluto medio percentuale (MAPE): l'errore percentuale (differenza percentuale tra il valore medio previsto e il valore effettivo) calcolato in media su tutti i punti temporali. Un valore più basso indica un modello più accurato, dove MAPE = 0 è un modello senza nessun errore.

  • Errore assoluto medio scalato (MASE): l'errore assoluto medio della previsione normalizzato rispetto all'errore assoluto medio di un semplice metodo di previsione di base. Un valore più basso indica un modello più accurato, in cui MASE < 1 è considerato migliore della linea di base e MASE > 1 è considerato peggiore della linea di base.