Utilice Managed Spot Training en Amazon SageMaker - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Utilice Managed Spot Training en Amazon SageMaker

Amazon SageMaker facilita el entrenamiento de modelos de aprendizaje automático mediante instancias puntuales gestionadas de Amazon EC2. El entrenamiento de spot administrado puede optimizar el coste de los modelos de entrenamiento hasta un 90 % con respecto a instancias bajo demanda. SageMaker gestiona las interrupciones puntuales en su nombre.

El entrenamiento de spot administrado usa instancias de Spot de Amazon EC2 para ejecutar trabajos de entrenamiento en lugar de instancias bajo demanda. Puede especificar qué trabajos de formación utilizan instancias puntuales y una condición de parada que especifique cuánto tiempo SageMaker espera a que se ejecute un trabajo con instancias puntuales de Amazon EC2. Las métricas y los registros generados durante las sesiones de entrenamiento están disponibles en. CloudWatch

El ajuste SageMaker automático de modelos de Amazon, también conocido como ajuste de hiperparámetros, puede utilizar un entrenamiento puntual gestionado. Para obtener más información, consulte Realice un ajuste automático del modelo con SageMaker.

Las instancias de Spot se pueden interrumpir, lo que hace que los trabajos tarden más en iniciarse o finalizar. Puede configurar su trabajo de entrenamiento puntual gestionado para utilizar puntos de control. SageMaker copia los datos de los puntos de control de una ruta local a Amazon S3. Cuando se reinicie el trabajo, SageMaker copia los datos de Amazon S3 de nuevo en la ruta local. A continuación, el entrenamiento puede reanudarse desde el último punto de control en lugar de reiniciarse. Para obtener más información sobre los puntos de control, consulte Usa puntos de control en Amazon SageMaker.

nota

A menos que su trabajo de formación se complete rápidamente, le recomendamos que utilice los puntos de control con una formación puntual gestionada. SageMaker Los algoritmos integrados y los algoritmos de mercado que no utilizan puntos MaxWaitTimeInSeconds de control están limitados actualmente a 3600 segundos (60 minutos).

Utilización del entrenamiento de spot administrado

Para utilizar el entrenamiento de spot administrado, cree un trabajo de entrenamiento. Establezca EnableManagedSpotTraining en True y especifique el MaxWaitTimeInSeconds. MaxWaitTimeInSeconds debe ser mayor que MaxRuntimeInSeconds. Para obtener información sobre la creación de un trabajo de capacitación, consulte DescribeTrainingJob.

Puede calcular los ahorros derivados del uso del entrenamiento de spot administrado mediante la fórmula (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Por ejemplo, si BillableTimeInSeconds es 100 y TrainingTimeInSeconds 500, significa que su trabajo de entrenamiento duró 500 segundos, pero se le facturó solo 100 segundos. Sus ahorros son de (1 - (100/500)) * 100 = 80%.

Para saber cómo ejecutar trabajos de formación en instancias SageMaker puntuales de Amazon y cómo funciona la formación puntual gestionada y reduce el tiempo facturable, consulta los siguientes cuadernos de ejemplo:

Ciclo de vida del entrenamiento de spot administrado

Puede monitorizar un trabajo de capacitación utilizando TrainingJobStatus y SecondaryStatus devuelto por DescribeTrainingJob. La lista siguiente muestra cómo cambian los valores TrainingJobStatus y SecondaryStatus en función del escenario de entrenamiento:

  • Instancias de spot adquiridas sin interrupción durante el entrenamiento

    1. InProgress: StartingDownloadingTrainingUploading

  • Instancias de spot interrumpidas una vez. Posteriormente, se adquirieron suficientes instancias de spot para finalizar el trabajo de entrenamiento.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • Las instancias de spot se interrumpieron dos veces y se superó MaxWaitTimeInSeconds.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • Las instancias de spot nunca se lanzaron.

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded