Verwaltetes Spot-Training in Amazon SageMaker - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwaltetes Spot-Training in Amazon SageMaker

Amazon SageMaker macht es einfach, Machine-Learning-Modelle mithilfe verwalteter Amazon EC2-Spot-Instances zu trainieren. Managed Spot Training kann die Kosten von Trainingsmodellen im Vergleich zu On-Demand-Instances um bis zu 90% optimieren. SageMaker verwaltet die Spot-Unterbrechungen in Ihrem Namen.

Managed Spot Training verwendet Amazon EC2 Spot-Instances, um Trainingsaufträge anstelle von On-Demand-Instances auszuführen. Sie können angeben, welche Trainingsjobs Spot-Instances verwenden, und eine Stoppbedingung, die angibt, wie lange SageMaker auf die Ausführung eines Jobs mit Amazon EC2-Spot-Instances gewartet wird. Metriken und Protokolle, die während der Trainingsläufe generiert wurden, sind unter verfügbar CloudWatch.

Die SageMaker automatische Modelloptimierung von Amazon, auch bekannt als Hyperparameter-Tuning, kann verwaltetes Spot-Training verwenden. Weitere Informationen zur automatischen Modelloptimierung finden Sie unterFühren Sie die automatische Modelloptimierung durch mit SageMaker.

Spot-Instances können unterbrochen werden, was dazu führt, dass es länger dauert, bis Aufträge gestartet oder beendet werden. Sie können Ihren verwalteten Spot-Trainingsjob so konfigurieren, dass er Checkpoints verwendet. SageMaker kopiert Checkpoint-Daten aus einem lokalen Pfad in Amazon S3. Wenn der Job neu gestartet wird, werden die Daten von Amazon S3 zurück in den lokalen Pfad SageMaker kopiert. Der Trainingsjob kann dann vom letzten Checkpoint aus fortgesetzt werden, anstatt neu zu starten. Weitere Informationen zum Checkpointing finden Sie unter Verwenden Sie Checkpoints in Amazon SageMaker.

Anmerkung

Sofern Ihr Trainingsjob nicht schnell abgeschlossen ist, empfehlen wir Ihnen, Checkpointing zusammen mit gemanagtem Spot-Training zu verwenden. SageMaker eingebaute Algorithmen und Marketplace-Algorithmen, die keine Checkpoints verwenden, sind derzeit auf 3600 Sekunden (60 Minuten) begrenzt.MaxWaitTimeInSeconds

Verwenden von Managed Spot Training

Um Managed Spot Training zu verwenden, erstellen Sie einen Schulungsauftrag. Legen Sie EnableManagedSpotTraining auf True fest und geben Sie einen Wert für MaxWaitTimeInSeconds an. MaxWaitTimeInSeconds muss größer sein als MaxRuntimeInSeconds. Informationen zum Erstellen eines Schulungsauftrags finden Sie unter DescribeTrainingJob.

Sie können die Einsparungen durch die Verwendung von Managed Spot Training mithilfe der Formel (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100 berechnen. WennBillableTimeInSeconds der Wert beispielsweise 100 und derTrainingTimeInSeconds Wert 500 ist, bedeutet dies, dass Ihr Trainingsjob 500 Sekunden lang lief, Ihnen jedoch nur 100 Sekunden in Rechnung gestellt wurden. Ihre Ersparnis beträgt (1 - (100/500)) * 100 = 80%

In den folgenden Beispielnotizbüchern erfahren Sie, wie Sie Trainingsjobs auf Amazon SageMaker Spot-Instances ausführen und wie verwaltete Spot-Schulungen funktionieren und die abrechnungsfähige Zeit reduzieren können:

Lebenszyklus für Managed Spot Training

Sie können einen Schulungsauftrag mit TrainingJobStatus und SecondaryStatus überwachen, die von DescribeTrainingJob zurückgegeben werden. Die folgende Liste zeigt, wie sich die Werte SecondaryStatus und TrainingJobStatus je nach Schulungsszenario ändern:

  • Spot-Instances, die während der Schulung ohne Unterbrechung erworben wurden

    1. InProgress: StartingDownloadingTrainingUploading

  • Erkenne Instanzen, die einmal unterbrochen wurden. Später wurden genügend Spot-Instanzen erworben, um die Ausbildung abzuschließen.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • Spot-Instances, die zweimal unterbrochen wurden und bei denen MaxWaitTimeInSeconds überschritten wurde.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • Spot-Instances, die nie gestartet wurden.

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded