Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwaltetes Spot-Training in Amazon SageMaker AI
Amazon SageMaker AI macht es einfach, Modelle für maschinelles Lernen mithilfe verwalteter Amazon EC2 Spot-Instances zu trainieren. Mithilfe von Managed Spot Training können die Kosten für das Training von Modellen über On-Demand-Instances um bis zu 90 % optimiert werden. SageMaker KI verwaltet die Spot-Unterbrechungen in Ihrem Namen.
Managed Spot Training verwendet Amazon EC2 Spot-Instances zur Ausführung von Trainingsjobs anstelle von On-Demand-Instances. Sie können angeben, für welche Trainingsjobs Spot-Instances verwendet werden, und eine Stopp-Bedingung festlegen, die festlegt, wie lange SageMaker KI darauf wartet, dass ein Job mit Amazon EC2 Spot-Instances ausgeführt wird. Metriken und Protokolle, die während der Trainingsläufe generiert wurden, sind unter verfügbar. CloudWatch
Die automatische Modelloptimierung von Amazon SageMaker AI, auch bekannt als Hyperparameter-Tuning, kann verwaltetes Spot-Training verwenden. Weitere Informationen zur automatischen Modelloptimierung finden Sie unter Automatische Modelloptimierung mit KI SageMaker .
Spot-Instances können unterbrochen werden, was dazu führt, dass es länger dauert, bis Aufträge gestartet oder beendet werden. Sie können Ihren verwalteten Spot-Trainingsjob so konfigurieren, dass er Checkpoints verwendet. SageMaker KI kopiert Checkpoint-Daten von einem lokalen Pfad nach Amazon S3. Wenn der Job neu gestartet wird, kopiert SageMaker AI die Daten von Amazon S3 zurück in den lokalen Pfad. Das Training kann dann ab dem letzten Prüfpunkt fortgesetzt werden, anstatt neu zu starten. Weitere Informationen zum Checkpointing finden Sie unter Checkpoints in Amazon AI SageMaker .
Anmerkung
Sofern Ihr Trainingsjob nicht schnell abgeschlossen wird, empfehlen wir Ihnen, Checkpointing zusammen mit verwaltetem Spot-Training zu verwenden. SageMaker Integrierte KI-Algorithmen und Marketplace-Algorithmen, die kein Checkpoint durchführen, sind derzeit auf 3600 Sekunden (60 Minuten) begrenzt. MaxWaitTimeInSeconds
Um Managed Spot Training zu verwenden, erstellen Sie einen Trainingsauftrag. Legen Sie EnableManagedSpotTraining
auf True
fest und geben Sie einen Wert für MaxWaitTimeInSeconds
an. MaxWaitTimeInSeconds
muss größer sein als MaxRuntimeInSeconds
. Informationen zum Erstellen eines Schulungsauftrags finden Sie unter DescribeTrainingJob.
Sie können die Einsparungen durch die Verwendung von Managed Spot Training mithilfe der Formel (1 -
(BillableTimeInSeconds / TrainingTimeInSeconds)) * 100
berechnen. Wenn beispielsweise BillableTimeInSeconds
100 ist und TrainingTimeInSeconds
500 ist, bedeutet dies, dass Ihr Trainingsauftrag 500 Sekunden lang lief, Ihnen aber nur 100 Sekunden in Rechnung gestellt wurden. Ihre Ersparnis beträgt (1 – (100 / 500)) * 100 = 80%.
In den folgenden Beispiel-Notebooks erfahren Sie, wie Schulungsjobs auf Amazon SageMaker AI-Spot-Instances ausgeführt werden und wie verwaltetes Spot-Training funktioniert und die abrechnungsfähige Zeit reduziert: