Verwenden von Managed Spot Training in Amazon SageMaker - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Managed Spot Training in Amazon SageMaker

Amazon SageMaker erleichtert das Trainieren von Machine-Learning-Modellen mit verwalteten Amazon EC2-Spot-Instances. Mithilfe von Managed Spot Schulung können die Kosten für die Schulung von Modellen über On-Demand-Instances um bis zu 90% optimiert werden. SageMaker verwaltet die Spot-Unterbrechungen in Ihrem Namen.

Managed Spot Schulung verwendet Amazon EC2 Spot Instance zum Ausführen von Schulungsaufträgen anstelle von On-Demand-Instances. Sie können angeben, welche Trainingsaufträge Spot-Instances verwenden, und eine Stoppbedingung, die angibt, wie lange SageMaker wartet, bis ein Auftrag mit Amazon EC2-Spot-Instances ausgeführt wird. Metriken und Protokolle, die während Trainingsläufen generiert wurden, sind in verfügbar CloudWatch.

Die SageMaker automatische Amazon-Modelloptimierung, auch bekannt als Hyperparameteroptimierung, kann verwaltetes Spot-Training verwenden. Weitere Informationen zur automatischen Modelloptimierung finden Sie unter Führen Sie eine automatische Modelloptimierung durch mit SageMaker.

Spot-Instances können unterbrochen werden, was dazu führt, dass es länger dauert, bis Aufträge gestartet oder beendet werden. Sie können Ihren verwalteten Spot-Trainingsauftrag so konfigurieren, dass Checkpoints. SageMaker copies-Checkpoint-Daten von einem lokalen Pfad zu Amazon S3 verwendet werden. Wenn der Auftrag neu gestartet wird, SageMaker kopiert die Daten aus Amazon S3 zurück in den lokalen Pfad. Die Schulung kann dann ab dem letzten Prüfpunkt fortgesetzt werden, anstatt neu zu starten. Weitere Informationen zum Checkpointing finden Sie unter Verwenden Sie Checkpoints in Amazon SageMaker.

Anmerkung

Sofern Ihr Trainingsjob nicht schnell abgeschlossen wird, empfehlen wir Ihnen, Checkpointing mit verwaltetem Spot-Training zu verwenden. SageMaker Integrierte Algorithmen und Marketplace-Algorithmen, die keinen Checkpoint haben, sind derzeit auf einen MaxWaitTimeInSeconds von 3600 Sekunden (60 Minuten) beschränkt.

Verwenden von Managed Spot Training

Um Managed Spot Training zu verwenden, erstellen Sie einen Schulungsauftrag. Legen Sie EnableManagedSpotTraining auf True fest und geben Sie einen Wert für MaxWaitTimeInSeconds an. MaxWaitTimeInSeconds muss größer sein als MaxRuntimeInSeconds. Informationen zum Erstellen eines Schulungsauftrags finden Sie unter DescribeTrainingJob.

Sie können die Einsparungen durch die Verwendung von Managed Spot Training mithilfe der Formel (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100 berechnen. Wenn beispielsweise BillableTimeInSeconds 100 ist und TrainingTimeInSeconds 500 ist, bedeutet dies, dass Ihr Schulungsauftrag 500 Sekunden lang lief, Ihnen aber nur 100 Sekunden in Rechnung gestellt wurden. Ihre Ersparnis beträgt (1 - (100 / 500)) * 100 = 80%.

Weitere Informationen zum Ausführen von Schulungsaufträgen auf Amazon- SageMaker Spot-Instances und zur Funktionsweise des verwalteten Spot-Trainings und zur Reduzierung der abrechenbaren Zeit finden Sie in den folgenden Beispielnotizbüchern:

Lebenszyklus für Managed Spot Training

Sie können einen Schulungsauftrag mit TrainingJobStatus und SecondaryStatus überwachen, die von DescribeTrainingJob zurückgegeben werden. Die folgende Liste zeigt, wie sich die Werte TrainingJobStatus und SecondaryStatus je nach Schulungsszenario ändern:

  • Spot-Instances, die während der Schulung ohne Unterbrechung erworben wurden

    1. InProgress: StartingDownloadingTrainingUploading

  • Spot-Instances, die einmalig unterbrochen wurden. Später wurden genügend Spot-Instances erworben, um den Schulungsauftrag abzuschließen.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • Spot-Instances, die zweimal unterbrochen wurden und bei denen MaxWaitTimeInSeconds überschritten wurde.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • Spot-Instances, die nie gestartet wurden.

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded