Verwaltetes Spot-Training bei Amazon SageMaker - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwaltetes Spot-Training bei Amazon SageMaker

Amazon SageMaker macht es einfach, Modelle für maschinelles Lernen mithilfe verwalteter Amazon EC2 Spot-Instances zu trainieren. Mithilfe von Managed Spot Training können die Kosten für das Training von Modellen über On-Demand-Instances um bis zu 90 % optimiert werden. SageMaker verwaltet die Spot-Unterbrechungen in Ihrem Namen.

Managed Spot Training verwendet Amazon EC2 Spot-Instances zur Ausführung von Trainingsjobs anstelle von On-Demand-Instances. Sie können angeben, für welche Trainingsjobs Spot-Instances verwendet werden, und eine Stopp-Bedingung festlegen, die festlegt, wie lange SageMaker auf die Ausführung eines Jobs mit Amazon EC2 Spot-Instances gewartet wird. Metriken und Protokolle, die während der Trainingsläufe generiert wurden, sind unter verfügbar. CloudWatch

Die SageMaker automatische Modelloptimierung von Amazon, auch bekannt als Hyperparameter-Tuning, kann verwaltetes Spot-Training verwenden. Weitere Informationen zur automatischen Modelloptimierung finden Sie unter Automatische Modelloptimierung mit SageMaker.

Spot-Instances können unterbrochen werden, was dazu führt, dass es länger dauert, bis Aufträge gestartet oder beendet werden. Sie können Ihren verwalteten Spot-Trainingsjob so konfigurieren, dass er Checkpoints verwendet. SageMaker kopiert Checkpoint-Daten von einem lokalen Pfad nach Amazon S3. Wenn der Job neu gestartet wird, werden die Daten von Amazon S3 zurück in den lokalen Pfad SageMaker kopiert. Das Training kann dann ab dem letzten Prüfpunkt fortgesetzt werden, anstatt neu zu starten. Weitere Informationen zum Checkpointing finden Sie unter Checkpoints bei Amazon SageMaker.

Anmerkung

Sofern Ihr Schulungsjob nicht schnell abgeschlossen wird, empfehlen wir Ihnen, Checkpointing zusammen mit verwaltetem Spot-Training zu verwenden. SageMaker Integrierte Algorithmen und Marketplace-Algorithmen, die kein Checkpoint durchführen, sind derzeit auf 3600 Sekunden (60 Minuten) begrenzt. MaxWaitTimeInSeconds

Um Managed Spot Training zu verwenden, erstellen Sie einen Trainingsauftrag. Legen Sie EnableManagedSpotTraining auf True fest und geben Sie einen Wert für MaxWaitTimeInSeconds an. MaxWaitTimeInSeconds muss größer sein als MaxRuntimeInSeconds. Weitere Informationen zum Erstellen eines Ausbildungsjobs finden Sie unter. DescribeTrainingJob

Sie können die Einsparungen durch die Verwendung von Managed Spot Training mithilfe der Formel (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100 berechnen. Wenn beispielsweise BillableTimeInSeconds 100 ist und TrainingTimeInSeconds 500 ist, bedeutet dies, dass Ihr Trainingsauftrag 500 Sekunden lang lief, Ihnen aber nur 100 Sekunden in Rechnung gestellt wurden. Ihre Ersparnis beträgt (1 – (100 / 500)) * 100 = 80%.

In den folgenden Beispielnotizbüchern erfahren Sie, wie Schulungsjobs auf Amazon SageMaker Spot-Instances ausgeführt werden und wie verwaltetes Spot-Training funktioniert und die abrechnungsfähige Zeit reduziert: