托管的 Spot 训练生命周期 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

托管的 Spot 训练生命周期

您可以使用监控训练作业,TrainingJobStatus并由SecondaryStatus返回DescribeTrainingJob。下面的列表显示了 TrainingJobStatusSecondaryStatus 值如何根据训练场景而变化:

  • 在训练期间不间断地获得的 Spot 实例

    1. InProgress: StartingDownloadingTrainingUploading

  • 竞价型实例中断一次。之后,获得了足够的竞价型实例来完成训练作业。

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • Spot 实例中断两次并且超出了 MaxWaitTimeInSeconds

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • Spot 实例从未启动。

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded