Usa la formazione Spot gestita su Amazon SageMaker - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Usa la formazione Spot gestita su Amazon SageMaker

Amazon SageMaker semplifica l'addestramento di modelli di machine learning utilizzando istanze Spot Amazon EC2 gestite. Managed Spot Training è in grado di ottimizzare il costo dei modelli di training fino al 90% rispetto alle istanze on demand. SageMaker gestisce le interruzioni Spot per tuo conto.

Managed Spot Training utilizza l'istanza Spot Amazon EC2 per eseguire processi di training anziché istanze on demand. Puoi specificare quali processi di formazione utilizzano istanze spot e una condizione di arresto che specifica per quanto tempo l' SageMaker attesa per l'esecuzione di un processo utilizzando le istanze Spot di Amazon EC2. Le metriche e i log generati durante le sessioni di allenamento sono disponibili in. CloudWatch

L'ottimizzazione SageMaker automatica dei modelli di Amazon, nota anche come ottimizzazione degli iperparametri, può utilizzare l'addestramento spot gestito. Per ulteriori informazioni sull’ottimizzazione automatica dei modelli, consulta Esegui l'ottimizzazione automatica del modello con SageMaker.

Le istanze Spot possono essere interrotte, causando un aumento del tempo richiesto per avviare o terminare i processi. Puoi configurare il tuo processo di formazione in loco gestito in modo da utilizzare i checkpoint. SageMaker copia i dati del checkpoint da un percorso locale ad Amazon S3. Quando il processo viene riavviato, SageMaker copia nuovamente i dati da Amazon S3 nel percorso locale. Il processo di addestramento può quindi riprendere dall'ultimo checkpoint anziché essere riavviato. Per ulteriori informazioni sulla creazione di checkpoint, consulta Usa i checkpoint in Amazon SageMaker.

Nota

A meno che il processo di formazione non venga completato rapidamente, ti consigliamo di utilizzare il checkpointing insieme alla formazione in loco gestita. SageMaker gli algoritmi integrati e gli algoritmi di marketplace che non prevedono il checkpoint sono attualmente limitati a 3600 secondi (MaxWaitTimeInSeconds60 minuti).

Utilizzo di Managed Spot Training

Per utilizzare Managed Spot Training, crea un processo di training. Imposta EnableManagedSpotTraining su True e specifica MaxWaitTimeInSeconds. MaxWaitTimeInSeconds deve essere maggiore di MaxRuntimeInSeconds. Per ulteriori informazioni sulla creazione di un processo di training, consulta DescribeTrainingJob.

Puoi calcolare i risparmi derivanti dall'utilizzo di Managed Spot Training utilizzando la formula (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Ad esempio, se BillableTimeInSeconds è 100 e TrainingTimeInSeconds è 500, significa che il processo di addestramento è durato 500 secondi, ma ti sono stati fatturati solo 100 secondi. Il tuo risparmio è di (1 - (100/ 500)) * 100 = 80%.

Per scoprire come eseguire lavori di formazione sulle istanze SageMaker spot di Amazon e come funziona la formazione spot gestita e riduce il tempo fatturabile, consulta i seguenti notebook di esempio:

Ciclo di vita di Managed Spot Training

Puoi monitorare un processo di training utilizzando TrainingJobStatus e SecondaryStatus restituiti da DescribeTrainingJob. L'elenco seguente mostra come i valori TrainingJobStatus e SecondaryStatus cambiano a seconda dello scenario di training:

  • Istanze Spot acquisite senza interruzioni durante il training

    1. InProgress: StartingDownloadingTrainingUploading

  • Istanze Spot interrotte una volta. Successivamente, sono state acquisite un numero sufficiente di istanze Spot per completare il processo di addestramento.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • Istanze Spot interrotte due volte e MaxWaitTimeInSeconds superate.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • Le istanze Spot non sono mai state avviate.

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded