Modalità di training e supporto degli algoritmi - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modalità di training e supporto degli algoritmi

Autopilot supporta diverse modalità e algoritmi di training per risolvere i problemi di machine learning, generare report su parametri oggettivi e di qualità e utilizzare automaticamente la convalida incrociata, quando necessario.

Modalità di training

SageMaker Autopilot può selezionare automaticamente il metodo di allenamento in base alla dimensione del set di dati oppure è possibile selezionarlo manualmente. Sono disponibili le opzioni seguenti:

  • Ensembling: Autopilot utilizza la libreria per addestrare diversi modelli di base. AutoGluon Per trovare la combinazione migliore per il tuo set di dati, la modalità raggruppamento esegue 10 prove con diverse impostazioni di modelli e metaparametri. Quindi Autopilot combina questi modelli utilizzando un metodo di sovrapposizione per creare un modello predittivo ottimale. Per un elenco degli algoritmi supportati da Autopilot in modalità raggruppamento per dati tabulari, consulta la seguente sezione relativa al Supporto degli algoritmi.

  • Ottimizzazione iperparametrica (HPO): Autopilot trova la versione migliore di un modello regolando gli iperparametri utilizzando l'ottimizzazione bayesiana o l'ottimizzazione multi-fidelity durante l'esecuzione di processi di training sul set di dati. La modalità HPO seleziona gli algoritmi più pertinenti al set di dati e seleziona la migliore gamma di iperparametri per ottimizzare i modelli. Per ottimizzare i modelli, la modalità HPO esegue fino a 100 prove (impostazione predefinita) per trovare le impostazioni ottimali degli iperparametri all'interno dell'intervallo selezionato. Se la dimensione del set di dati è inferiore a 100 MB, Autopilot utilizza l'ottimizzazione bayesiana. Autopilot sceglie l'ottimizzazione multi-fidelity se il set di dati è più grande di 100 MB.

    Nell'ottimizzazione multifidelity, i parametri vengono emessi continuamente dai container di training. Una prova con scarse prestazioni rispetto a un parametro oggettivo selezionato viene interrotto in anticipo. A una versione di prova che sta dando buoni risultati vengono assegnate più risorse.

    Per un elenco degli algoritmi supportati da Autopilot in modalità HPO, consulta la seguente sezione relativa al supporto degli algoritmi.

  • Auto: Autopilot sceglie automaticamente la modalità raggruppamento o la modalità HPO in base alle dimensioni del set di dati. Se il set di dati è più grande di 100 MB, Autopilot sceglie HPO. Altrimenti, esso sceglie la modalità raggruppamento. Autopilot può non riuscire a leggere la dimensione del set di dati nei seguenti casi.

    • Se abiliti la modalità cloud privato virtuale (VPC), per un processo AutoML, ma il bucket S3 contenente il set di dati consente l'accesso solo dal VPC.

    • L'input S3 del tuo set DataType di dati è un. ManifestFile

    • L'input S3Uri contiene più di 1000 elementi.

    Se Autopilot non è in grado di leggere la dimensione del set di dati, per impostazione predefinita sceglie la modalità HPO.

Nota

Per un runtime e prestazioni ottimali, utilizza la modalità training raggruppamento per set di dati di dimensioni inferiori a 100 MB.

Supporto degli algoritmi

In HPO mode, Autopilot supporta i seguenti tipi di algoritmi di machine learning:

  • Linear learner: un algoritmo di apprendimento supervisionato in grado di risolvere problemi di classificazione o regressione.

  • XGBoost: un apprendimento supervisionato che tenta di prevedere con precisione una variabile di destinazione combinando un insieme di stime da un set di modelli più semplici e deboli.

  • Deep learning algorithm (Algoritmo deep learning): un perceptron multistrato (MLP) e una rete neurale artificiale feedforward. Questo algoritmo è in grado di gestire dati che non sono separabili linearmente.

Nota

Non è necessario specificare un algoritmo da utilizzare per il problema del Machine learning. Autopilot seleziona automaticamente l'algoritmo appropriato da preparare.

In ensembling mode (modalità raggruppamento), Autopilot supporta i seguenti tipi di algoritmi di machine learning:

  • LightGBM: un framework ottimizzato che utilizza algoritmi ad albero con aumento del gradiente. Questo algoritmo utilizza alberi che crescono in larghezza anziché in profondità ed è altamente ottimizzato per la velocità.

  • CatBoost— Un framework che utilizza algoritmi basati su alberi con aumento del gradiente. Ottimizzato per la gestione di variabili categoriche.

  • XGBoost: un framework che utilizza algoritmi ad albero con aumento del gradiente che cresce in profondità, anziché in larghezza.

  • Random Forest: un algoritmo ad albero che utilizza diversi alberi decisionali su sottocampioni casuali di dati con sostituzione. Gli alberi sono suddivisi in nodi ottimali a ciascun livello. Le decisioni di ogni albero vengono calcolate insieme per evitare un sovradimensionamento e migliorare le previsioni.

  • Extra Trees: un algoritmo ad albero che utilizza diversi alberi decisionali sull'intero set di dati. Gli alberi vengono suddivisi casualmente ad ogni livello. Le decisioni di ogni albero vengono calcolate per evitare un sovradimensionamento e per migliorare le previsioni. Gli alberi aggiuntivi aggiungono un grado di randomizzazione rispetto all'algoritmo della foresta casuale.

  • Linear Models: un framework che utilizza un'equazione lineare per modellare la relazione tra due variabili nei dati osservati.

  • Neural network torch: un modello di rete neurale implementato utilizzando Pytorch.

  • Neural network fast.ai: un modello di rete neurale implementato utilizzando fast.ai.