Utilisez Managed Spot Training sur Amazon SageMaker - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisez Managed Spot Training sur Amazon SageMaker

Amazon SageMaker facilite la formation de modèles d'apprentissage automatique à l'aide d'instances Amazon EC2 Spot gérées. L'entraînement d'instances Spot gérées peut optimiser le coût d'entraînement des modèles jusqu'à 90 % par rapport aux instances à la demande. SageMaker gère les interruptions de Spot en votre nom.

L'entraînement d'instances Spot gérées utilise une instance Spot Amazon EC2 pour exécuter des tâches d'entraînement au lieu d'instances à la demande. Vous pouvez spécifier les tâches de formation qui utilisent des instances ponctuelles et une condition d'arrêt qui indique le temps d' SageMaker attente pour qu'une tâche s'exécute à l'aide d'instances ponctuelles Amazon EC2. Les métriques et les journaux générés lors des entraînements sont disponibles dans CloudWatch.

Le réglage SageMaker automatique des modèles Amazon, également connu sous le nom de réglage des hyperparamètres, peut utiliser un entraînement ponctuel géré. Pour plus d'informations sur le réglage automatique de modèle, consultez Effectuez le réglage automatique du modèle avec SageMaker.

Les instances Spot peuvent être interrompues, suite à quoi les tâches mettent plus de temps à démarrer ou à se terminer. Vous pouvez configurer votre tâche de formation ponctuelle gérée pour utiliser des points de contrôle. SageMaker copie les données des points de contrôle depuis un chemin local vers Amazon S3. Lorsque la tâche est redémarrée, SageMaker copie les données d'Amazon S3 dans le chemin local. La tâche d'entraînement peut ensuite reprendre à partir du dernier point de contrôle au lieu de redémarrer depuis le début. Pour en savoir plus sur les points de contrôle, consultez Utiliser les points de contrôle sur Amazon SageMaker.

Note

À moins que votre stage de formation ne soit terminé rapidement, nous vous recommandons d'utiliser le point de contrôle avec une formation ponctuelle gérée. SageMaker les algorithmes intégrés et les algorithmes du marché qui ne sont pas des points MaxWaitTimeInSeconds de contrôle sont actuellement limités à 3 600 secondes (60 minutes).

Utilisation de l'entraînement Spot géré

Pour utiliser l'entraînement Spot géré, créez une tâche d'entraînement. Définissez EnableManagedSpotTraining sur True et spécifiez MaxWaitTimeInSeconds. MaxWaitTimeInSeconds doit être supérieur à MaxRuntimeInSeconds. Pour de plus amples informations sur la création d'une tâche de formation, veuillez consulter DescribeTrainingJob.

Vous pouvez calculer les économies générées par l'utilisation de l'entraînement Spot géré à l'aide de la formule (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Par exemple, si la valeur BillableTimeInSeconds est égale à 100 et TrainingTimeInSeconds à 500, cela signifie que votre tâche d'entraînement a duré 500 secondes, mais que vous n'avez été facturé que pour 100 secondes. Vos économies sont de (1 - (100 / 500)) * 100 = 80 %.

Pour savoir comment exécuter des tâches de formation sur des instances Amazon SageMaker Spot et comment fonctionne la formation ponctuelle gérée et réduit le temps facturable, consultez les exemples de carnets de notes suivants :

Cycle de vie de l'entraînement Spot géré

Vous pouvez surveiller une tâche de formation en utilisant les valeurs TrainingJobStatus et SecondaryStatus renvoyées par DescribeTrainingJob. La liste ci-dessous montre comment les valeurs TrainingJobStatus et SecondaryStatus changent en fonction du scénario d'entraînement :

  • Instances Spot acquises sans interruption pendant l'entraînement

    1. InProgress: StartingDownloadingTrainingUploading

  • Instances Spot interrompues une fois. Par la suite, suffisamment d'instances Spot ont été acquises pour terminer la tâche d'entraînement.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • Instances Spot interrompues deux fois et délai MaxWaitTimeInSeconds dépassé.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • Les instances Spot n'ont jamais été lancées.

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded