Configurazioni avanzate per la costruzione di modelli - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazioni avanzate per la costruzione di modelli

Amazon SageMaker Canvas supporta diverse impostazioni avanzate che puoi configurare durante la creazione di un modello. La pagina seguente elenca tutte le impostazioni avanzate insieme a informazioni aggiuntive sulle relative opzioni e configurazioni.

Nota

Le seguenti impostazioni avanzate sono attualmente supportate solo per i tipi di modelli di previsione numerici, categoriali e di serie temporali.

Impostazioni avanzate del modello di previsione numerica e categoriale

Canvas supporta le seguenti impostazioni avanzate per i tipi di modelli di previsione numerici e categoriali.

Parametro obiettivo

La metrica oggettiva è la metrica che desideri che Canvas ottimizzi durante la creazione del modello. Se non selezioni un parametro, Canvas ne sceglie uno automaticamente per te per impostazione predefinita. Per le descrizioni delle metriche disponibili, consulta la. Riferimento alle metriche

Metodo di allenamento

Canvas può selezionare automaticamente il metodo di allenamento in base alla dimensione del set di dati oppure è possibile selezionarlo manualmente. È possibile scegliere tra i seguenti metodi di allenamento:

  • Ensembling: SageMaker sfrutta la AutoGluon libreria per addestrare diversi modelli di base. Per trovare la combinazione migliore per il tuo set di dati, la modalità ensemble esegue 5-10 prove con diverse impostazioni di modelli e metaparametri. Quindi, questi modelli vengono combinati utilizzando un metodo di sovrapposizione per creare un modello predittivo ottimale. Per un elenco degli algoritmi supportati dalla modalità ensemble per i dati tabulari, consulta la sezione seguente. Algoritmi

  • Ottimizzazione iperparametrica (HPO): SageMaker trova la versione migliore di un modello ottimizzando gli iperparametri utilizzando l'ottimizzazione bayesiana o l'ottimizzazione a più fedeltà durante l'esecuzione di lavori di formazione sul set di dati. La modalità HPO seleziona gli algoritmi più pertinenti al set di dati e seleziona la migliore gamma di iperparametri per ottimizzare i modelli. Per ottimizzare i modelli, la modalità HPO esegue fino a 100 prove (impostazione predefinita) per trovare le impostazioni ottimali degli iperparametri all'interno dell'intervallo selezionato. Se la dimensione del set di dati è inferiore a 100 MB, utilizza l'ottimizzazione bayesiana. SageMaker SageMaker sceglie l'ottimizzazione a più fedeltà se il set di dati è più grande di 100 MB.

    Per un elenco degli algoritmi supportati dalla modalità HPO per i dati tabulari, consulta la sezione seguente. Algoritmi

  • Automatico: sceglie SageMaker automaticamente la modalità ensembling o la modalità HPO in base alle dimensioni del set di dati. Se il set di dati è più grande di 100 MB, scegli la modalità HPO. SageMaker Altrimenti, esso sceglie la modalità raggruppamento.

Algoritmi

In modalità Ensembling, Canvas supporta i seguenti algoritmi di apprendimento automatico:

  • LightGBM: un framework ottimizzato che utilizza algoritmi ad albero con aumento del gradiente. Questo algoritmo utilizza alberi che crescono in larghezza anziché in profondità ed è altamente ottimizzato per la velocità.

  • CatBoost— Un framework che utilizza algoritmi basati su alberi con potenziamento del gradiente. Ottimizzato per la gestione di variabili categoriche.

  • XGBoost: un framework che utilizza algoritmi ad albero con aumento del gradiente che cresce in profondità, anziché in larghezza.

  • Random Forest: un algoritmo ad albero che utilizza diversi alberi decisionali su sottocampioni casuali di dati con sostituzione. Gli alberi sono suddivisi in nodi ottimali a ciascun livello. Le decisioni di ogni albero vengono calcolate insieme per evitare un sovradimensionamento e migliorare le previsioni.

  • Extra Trees: un algoritmo ad albero che utilizza diversi alberi decisionali sull'intero set di dati. Gli alberi vengono suddivisi casualmente ad ogni livello. Le decisioni di ogni albero vengono calcolate per evitare un sovradimensionamento e per migliorare le previsioni. Gli alberi aggiuntivi aggiungono un grado di randomizzazione rispetto all'algoritmo della foresta casuale.

  • Linear Models: un framework che utilizza un'equazione lineare per modellare la relazione tra due variabili nei dati osservati.

  • Neural network torch: un modello di rete neurale implementato utilizzando Pytorch.

  • Neural network fast.ai: un modello di rete neurale implementato utilizzando fast.ai.

In modalità HPO, Canvas supporta i seguenti algoritmi di apprendimento automatico:

  • XGBoost: un apprendimento supervisionato che tenta di prevedere con precisione una variabile di destinazione combinando un insieme di stime da un set di modelli più semplici e deboli.

  • Deep learning algorithm (Algoritmo deep learning): un perceptron multistrato (MLP) e una rete neurale artificiale feedforward. Questo algoritmo è in grado di gestire dati che non sono separabili linearmente.

Suddivisione dei dati

Hai la possibilità di specificare come vuoi dividere il set di dati tra il set di addestramento (la parte del set di dati utilizzata per creare il modello) e il set di convalida (la parte del set di dati utilizzata per verificare l'accuratezza del modello). Ad esempio, un rapporto di suddivisione comune è l'80% di formazione e il 20% di convalida, in cui l'80% dei dati viene utilizzato per creare il modello mentre il 20% viene risparmiato per misurare le prestazioni del modello. Se non specifichi un rapporto personalizzato, Canvas divide automaticamente il set di dati.

Numero massimo di candidati

Nota

Questa funzionalità è disponibile solo nella modalità di allenamento HPO.

È possibile specificare il numero massimo di modelli candidati generati da Canvas durante la creazione del modello. Ti consigliamo di utilizzare il numero predefinito di candidati, ovvero 100, per creare i modelli più accurati. Il numero massimo che puoi specificare è 250. La riduzione del numero di modelli candidati può influire sulla precisione del modello.

Durata massima del lavoro

Puoi specificare la durata massima del lavoro o la quantità massima di tempo che Canvas impiega per creare il tuo modello. Dopo il limite di tempo, Canvas interrompe la creazione e seleziona il miglior modello candidato.

Il tempo massimo che puoi specificare è di 720 ore. Ti consigliamo vivamente di mantenere la durata massima del lavoro superiore a 30 minuti per garantire che Canvas abbia abbastanza tempo per generare modelli candidati e completare la creazione del modello.

Impostazioni avanzate del modello di previsione delle serie temporali

Per i modelli di previsione delle serie temporali, Canvas supporta la metrica Objective, elencata nella sezione precedente.

I modelli di previsione delle serie temporali supportano anche le seguenti impostazioni avanzate:

Selezione dell'algoritmo

Quando si crea un modello di previsione delle serie temporali, Canvas utilizza un insieme (o una combinazione) di algoritmi statistici e di apprendimento automatico per fornire previsioni di serie temporali estremamente accurate. Per impostazione predefinita, Canvas seleziona la combinazione ottimale di tutti gli algoritmi disponibili in base alle serie temporali del set di dati. Tuttavia, hai la possibilità di specificare uno o più algoritmi da utilizzare per il tuo modello di previsione. In questo caso, Canvas determina la combinazione migliore utilizzando solo gli algoritmi selezionati. Se non sei sicuro dell'algoritmo da selezionare per addestrare il tuo modello, ti consigliamo di scegliere tutti gli algoritmi disponibili.

Nota

La selezione degli algoritmi è supportata solo per le build standard. Se non selezioni alcun algoritmo nelle impostazioni avanzate, per impostazione predefinita SageMaker esegue una compilazione rapida e addestra i modelli candidati utilizzando un unico algoritmo di apprendimento basato su un albero. Per ulteriori informazioni sulla differenza tra build rapide e build standard, consulta. Creazione di un modello personalizzato

Canvas supporta i seguenti algoritmi di previsione delle serie temporali:

  • Average mobile integrata autoregressiva (ARIMA): un semplice modello stocastico di serie temporali che utilizza l'analisi statistica per interpretare i dati e fare previsioni future. Questo algoritmo è utile per set di dati semplici con meno di 100 serie temporali.

  • Rete neurale convoluzionale - Regressione quantile (CNN-QR) — Un algoritmo di apprendimento proprietario e supervisionato che addestra un modello globale da un'ampia raccolta di serie temporali e utilizza un decodificatore quantile per fare previsioni. CNN-QR funziona al meglio con set di dati di grandi dimensioni contenenti centinaia di serie temporali.

  • DeepAr+ — Un algoritmo di apprendimento proprietario e supervisionato per la previsione di serie temporali scalari utilizzando reti neurali ricorrenti (RNN) per addestrare un singolo modello congiuntamente su tutte le serie temporali. Deepar+ funziona al meglio con set di dati di grandi dimensioni contenenti centinaia di serie temporali di funzionalità.

  • Serie temporali non parametriche (NPTS): un sistema di previsione di base scalabile e probabilistico che prevede la distribuzione futura del valore di una determinata serie temporale campionando da osservazioni passate. L'NPTS è utile quando si lavora con serie temporali sparse o intermittenti (ad esempio, per la previsione della domanda per singoli articoli in cui la serie temporale ha molti 0 o conteggi bassi).

  • Exponential Smoothing (ETS): un metodo di previsione che produce previsioni che sono medie ponderate di osservazioni passate in cui il peso delle osservazioni precedenti diminuisce esponenzialmente. L'algoritmo è utile per set di dati semplici con meno di 100 serie temporali e set di dati con modelli di stagionalità.

  • Prophet: un modello di regressione additivo che funziona meglio con serie temporali che hanno forti effetti stagionali e diverse stagioni di dati storici. L'algoritmo è utile per set di dati con tendenze di crescita non lineari che si avvicinano a un limite.

Quantili di previsione

Per la previsione delle serie temporali, SageMaker forma 6 candidati modello con le serie temporali target. Quindi, SageMaker combina questi modelli utilizzando un metodo di sovrapposizione per creare un modello di previsione ottimale per una determinata metrica oggettiva. Ogni modello di previsione genera una previsione probabilistica producendo previsioni su quantili compresi tra P1 e P99. Questi quantili vengono utilizzati per tenere conto dell'incertezza delle previsioni. Per impostazione predefinita, le previsioni vengono generate per 0,1 (p10), 0,5 () e 0,9 (). p50 p90 Potete scegliere di specificare fino a cinque quantili personalizzati da 0,01 (p1) a 0,99 (p99), con incrementi di 0,01 o superiori.