Verwaltetes Spot-Training bei Amazon SageMaker - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwaltetes Spot-Training bei Amazon SageMaker

Amazon SageMaker erleichtert das Trainieren von Modellen für maschinelles Lernen mithilfe verwalteter Amazon EC2 Spot-Instances. Managed Spot Training kann die Kosten für Schulungsmodelle im Vergleich zu On-Demand-Instanzen um bis zu 90% optimieren. SageMaker verwaltet die Spot-Unterbrechungen in Ihrem Namen.

Managed Spot Training verwendet die Amazon EC2 Spot-Instance zur Ausführung von Schulungsaufträgen anstelle von On-Demand-Instances Sie können angeben, welche Trainingsjobs Spot-Instanzen verwenden, und eine Stopp-Bedingung, die angibt, wie SageMaker wartet auf die Ausführung eines Auftrags mit Amazon EC2 Spot-Instances. Während der Trainingsläufe generierte Metriken und Protokolle sind verfügbar in CloudWatch.

Amazon SageMaker Die automatische Modellabstimmung, auch als Hyperparameter-Tuning bekannt, kann Managed Spot Training verwenden. Weitere Informationen zur automatischen Modelloptimierung finden Sie unterFühren Sie eine automatische Modelloptimierung durch mit SageMaker.

Spot-Instances können unterbrochen werden, was dazu führt, dass es länger dauert, bis Aufträge gestartet oder beendet werden. Sie können Ihren Managed Spot Training Job für die Verwendung von Checkpoints konfigurieren. SageMaker kopiert Checkpoint-Daten aus einem lokalen Pfad in Amazon S3. Wenn der Job neu gestartet wird, SageMaker kopiert die Daten aus Amazon S3 zurück in den lokalen Pfad. Der Trainingsjob kann dann ab dem letzten Checkpoint fortgesetzt werden, anstatt neu zu starten. Weitere Informationen zum Checkpointing finden Sie unter Verwenden Sie Checkpoints in Amazon SageMaker.

Anmerkung

Sofern Ihr Trainingsjob nicht schnell abgeschlossen wird, empfehlen wir Ihnen, Checkpointing mit Managed Spot Training zu verwenden. SageMaker eingebaute Algorithmen und Marktplatz-Algorithmen, die keinen Checkpoint verwenden, sind derzeit auf a beschränktMaxWaitTimeInSecondsvon 3600 Sekunden (60 Minuten).

Verwenden von Managed Spot Training

Um Managed Spot Training zu verwenden, erstellen Sie einen Schulungsauftrag. Legen Sie EnableManagedSpotTraining auf True fest und geben Sie einen Wert für MaxWaitTimeInSeconds an. MaxWaitTimeInSeconds muss größer sein als MaxRuntimeInSeconds. Informationen zum Erstellen eines Schulungsauftrags finden Sie unter DescribeTrainingJob.

Sie können die Einsparungen durch die Verwendung von Managed Spot Training mithilfe der Formel (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100 berechnen. Wenn BillableTimeInSeconds beispielsweise 100 und TrainingTimeInSeconds 500 ist, betragen die Einsparungen 80 %.

Erfahren Sie, wie Sie Schulungsjobs bei Amazon ausführen SageMaker Spot-Instances und wie Managed Spot Training funktioniert und die abrechenbare Zeit reduziert, sehen Sie sich die folgenden Beispiel-Notebooks an:

Lebenszyklus für Managed Spot Training

Sie können einen Schulungsauftrag mit TrainingJobStatus und SecondaryStatus überwachen, die von DescribeTrainingJob zurückgegeben werden. Die folgende Liste zeigt, wie sich die Werte SecondaryStatus und TrainingJobStatus je nach Schulungsszenario ändern:

  • Spot-Instances, die während der Schulung ohne Unterbrechung erworben wurden

    1. InProgress: StartingDownloadingTrainingUploading

  • Spot-Instances wurden einmal unterbrochen. Später wurden genügend Spot-Instanzen erworben, um den Schulungsjob abzuschließen.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • Spot-Instances, die zweimal unterbrochen wurden und bei denen MaxWaitTimeInSeconds überschritten wurde.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • Spot-Instances, die nie gestartet wurden.

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded