Amazon でのマネージドスポットトレーニング SageMaker - アマゾン SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon でのマネージドスポットトレーニング SageMaker

アマゾン SageMaker マネージド型の Amazon EC2 スポットインスタンスを使用して機械学習モデルを簡単にトレーニングできます。マネージド型のスポットトレーニングでは、オンデマンドインスタンスと比較して、トレーニングモデルのコストを最大 90% 抑えることができます。 SageMaker ユーザーに代わって、スポットの中断を管理します。

マネージドスポットトレーニングでは、オンデマンドインスタンスではなく Amazon EC2 スポットインスタンスを使用してトレーニングジョブを実行します。スポットインスタンスを使用するトレーニングジョブと、スポットインスタンスを使用する停止条件を指定できます。 SageMaker Amazon EC2 スポットインスタンスを使用してジョブが実行されるのを待機します。トレーニングの実行中に生成されたメトリクスとログは、次のURLにあります CloudWatch。

アマゾン SageMaker ハイパーパラメータチューニングニングニングニングニングニングニングにはマネージドスポットトレーニングを使用できます。自動モデルチューニングの詳細については、「」を参照してください。を使用して自動モデルチューニングを実行する SageMaker

スポットインスタンスは中断されることがあります。その場合、ジョブの開始または終了に時間がかかる場合があります。チェックポイントを使用するように、マネージドスポットトレーニングジョブを設定できます。 SageMaker チェックポイントデータをローカルパスから Amazon S3 にコピーします。ジョブが再開されると、 SageMaker Amazon S3 からローカルパスにデータを再度コピーします。その結果、トレーニングジョブは最初からではなく、最後のチェックポイントから再開できます。チェックポイントの詳細については、Amazon でチェックポイントを使用する SageMakerを参照してください。

注記

トレーニングジョブがすぐに完了しない限り、マネージドスポットトレーニングではチェックポイントを使用することをお勧めします。 SageMaker チェックポイントを行わない組み込みアルゴリズムとマーケットプレイスアルゴリズムは、現在MaxWaitTimeInSeconds3600秒 (60分)。

マネージドスポットトレーニングの使用

マネージド型スポットトレーニングを使用するには、トレーニングジョブを作成します。EnableManagedSpotTrainingTrue に設定し、MaxWaitTimeInSeconds を指定します。MaxWaitTimeInSeconds は、MaxRuntimeInSeconds より大きい値にする必要があります。トレーニングジョブの作成の詳細については、「DescribeTrainingJob」を参照してください。

削減率を計算するには、式 (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100 を使用して、マネージド型スポットトレーニングを使用します。たとえば、BillableTimeInSeconds が 100 で、TrainingTimeInSeconds が 500 の場合、削減率は 80% です。

Amazon でトレーニングジョブを実行する方法を知るには SageMaker スポットインスタンスとマネージドスポットトレーニングの仕組み、請求対象時間を短縮する方法については、次のサンプルノートブックを参照してください。

マネージド型スポットトレーニングのライフサイクル

次の方法でトレーニングジョブを監視できますTrainingJobStatusそしてSecondaryStatus戻り値:DescribeTrainingJob。以下のリストは、トレーニングのシナリオに基づき、TrainingJobStatus および SecondaryStatus の値が変化する様子を示しています。

  • トレーニング中に中断することなく取得したスポットインスタンス

    1. InProgress: StartingDownloadingTrainingUploading

  • スポットインスタンスは 1 回中断されました。その後、トレーニングジョブを完了するのに十分な数のスポットインスタンスが取得されました。

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • スポットインスタンスが 2 回中断され、MaxWaitTimeInSeconds が超過しました。

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • スポットインスタンスは起動されませんでした。

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded