Reservieren Sie Schulungspläne für Ihre Trainingsjobs oder HyperPod -cluster - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Reservieren Sie Schulungspläne für Ihre Trainingsjobs oder HyperPod -cluster

Amazon SageMaker Training Plans ist eine Funktion, mit der Sie GPU-Kapazität für umfangreiche KI-Modell-Trainingsworkloads reservieren und dabei helfen können, deren Nutzung zu maximieren. Diese Funktion bietet Zugriff auf stark nachgefragte Instance-Typen, die eine Reihe von GPU-beschleunigten Rechenoptionen abdecken, darunter die neuesten NVIDIA-GPU-Technologien und Trainium-Chips. AWS Mit SageMaker Schulungsplänen können Sie sich einen vorhersehbaren Zugriff auf diese stark nachgefragten, leistungsstarken Rechenressourcen innerhalb Ihrer festgelegten Zeitpläne und Budgets sichern, ohne die zugrunde liegende Infrastruktur verwalten zu müssen. Diese Flexibilität ist besonders wertvoll für Unternehmen, die sich mit den Herausforderungen auseinandersetzen müssen, diese überfüllten Recheninstanzen für ihre geschäftskritischen KI-Workloads zu erwerben und zu planen.

Was sind Schulungspläne SageMaker

SageMaker Mit Schulungsplänen können Sie Rechenkapazität reservieren, die auf Ihre Zielressourcenanforderungen zugeschnitten ist, z. B. für SageMaker Schulungsjobs oder SageMaker HyperPod Cluster. Der Service kümmert sich automatisch um die Reservierung, Bereitstellung beschleunigter Rechenressourcen, die Einrichtung der Infrastruktur, die Ausführung von Workloads und die Wiederherstellung nach Infrastrukturausfällen.

SageMaker Trainingspläne bestehen aus einem oder mehreren Blöcken mit reservierter Kapazität, die jeweils durch die folgenden Parameter definiert sind:

  • Spezifischer Instanztyp

  • Anzahl der Instanzen

  • Availability Zone

  • Dauer

  • Start- und Endzeiten

Anmerkung
  • Schulungspläne sind spezifisch für ihre Zielressource (entweder SageMaker Ausbildungsjob oder SageMaker HyperPod) und können nicht ausgetauscht werden.

  • Mehrere Blöcke mit reservierter Kapazität in einem einzigen Schulungsplan können diskontinuierlich sein. Das bedeutet, dass es zu Lücken zwischen den Blöcken mit reservierter Kapazität kommen kann.

Vorteile von SageMaker Schulungsplänen

SageMaker Schulungspläne bieten die folgenden Vorteile:

  • Vorhersehbarer Zugriff: Reservieren Sie GPU-Kapazität für Ihre Machine-Learning-Workloads innerhalb bestimmter Zeitrahmen.

  • Kostenmanagement: Planen und budgetieren Sie umfangreiche Schulungsanforderungen im Voraus.

  • Automatisiertes Ressourcenmanagement: SageMaker Schulungspläne regeln die Bereitstellung und Verwaltung der Infrastruktur.

  • Flexibilität: Erstellen Sie Schulungspläne für verschiedene Ressourcen, einschließlich SageMaker Schulungsjobs und SageMaker HyperPod Cluster.

  • Fehlertoleranz: Profitieren Sie von der automatischen Wiederherstellung nach Infrastrukturausfällen und der Migration von Workloads zwischen Availability Zones für SageMaker KI-Schulungsaufgaben.

SageMaker Schulungspläne, Voranmeldung und flexible Startzeiten

SageMaker Schulungspläne ermöglichen es Ihnen, Rechenkapazität im Voraus zu reservieren, mit flexiblen Startzeiten und Dauern.

  • Vorreservierung: Sie können einen Trainingsplan bis zu 8 Wochen (56 Tage) vor dem Startdatum reservieren.

  • Mindestvorlaufzeit: Angebote für SageMaker Trainingspläne können je nach Verfügbarkeit innerhalb von 30 Minuten nach der Reservierung beginnen.

    Anmerkung

    Sie können nach einem Tarif suchen und diesen erwerben, der innerhalb von 30 Minuten verfügbar sein wird. Um eine rechtzeitige Aktivierung zu gewährleisten, muss die Zahlungstransaktion mindestens 5 Minuten vor der gewünschten Startzeit erfolgreich abgeschlossen werden. Wenn Sie beispielsweise möchten, dass ein Tarif um 14:00 Uhr beginnt, können Sie bis 13:30 Uhr eine Last-Minute-Suche durchführen und Ihren Kauf bis 13:55 Uhr abschließen, um sicherzustellen, dass der Plan bis 14:00 Uhr fertig ist.

  • Reservierungsdauer und Anzahl der Instanzen: Mit SageMaker Trainingsplänen können Sie Instances mit bestimmten Optionen für Dauer und Anzahl reservieren. Informationen zu verfügbaren Instance-Typen mit bestimmten AWS-Region Optionen für Dauer und Anzahl finden Sie unterUnterstützte Instanztypen und Preise AWS-Regionen.

  • Endzeit: Die Trainingspläne enden immer um 11:30 Uhr UTC am letzten Tag der Reservierung.

  • Kündigung des Schulungsplans: Wenn Sie Trainingsjobs als Zielressource verwenden und noch 30 Minuten in einer reservierten Kapazität verbleiben, leiten SageMaker Trainingspläne den Prozess ein, bei dem alle laufenden Instanzen innerhalb dieses Blocks beendet werden, bis die nächste reservierte Kapazität aktiv wird. Sie haben bis 30 Minuten vor dem Ende des letzten Blocks mit reservierter Kapazität vollen Zugriff auf Ihren Trainingsplan.

    Wenn es sich bei Ihrer Zielressource um einen SageMaker HyperPod Cluster handelt, beträgt dieses Zeitlimit eine Stunde.

SageMaker Schulungspläne, Arbeitsablauf für Benutzer

SageMaker Schulungspläne bestehen aus den folgenden Schritten:

Schritte für Administratoren:

  1. Suchen und überprüfen: Finden Sie verfügbare Tarife, die Ihren Rechenanforderungen entsprechen, z. B. Instanztyp, Anzahl, Startzeit und Dauer.

  2. Plan erstellen: Reservieren Sie einen Trainingsplan, der Ihren Anforderungen entspricht, und verwenden Sie dabei die ID des von Ihnen ausgewählten Planangebots.

  3. Zahlung und Terminplanung: Nach erfolgreicher Vorauszahlung wird Scheduled der Status des Plans geändert.

Schritte für Nutzer des Plans /ML-Techniker:

  1. Ressourcenzuweisung: Verwenden Sie Ihren Plan, um SageMaker KI-Schulungsjobs in die Warteschlange zu stellen oder sie einer SageMaker HyperPod Cluster-Instanzgruppe zuzuweisen.

  2. Aktivierung: Wenn das Startdatum des Plans erreicht ist, wird Active es. Basierend auf der verfügbaren reservierten Kapazität starten SageMaker Schulungspläne automatisch Schulungsjobs oder stellen Instanzgruppen bereit.

Anmerkung

Der Status des Schulungsplans wechselt vom Beginn eines Zeitraums mit reservierter Kapazität Scheduled zu Active dem Scheduled Zeitpunkt, zu dem auf den Beginn des nächsten Zeitraums mit reservierter Kapazität gewartet wird.

Die folgenden Diagramme bieten einen umfassenden Überblick darübertarget resources, wie SageMaker Schulungspläne mit verschiedenen Systemen interagieren. Sie veranschaulichen den Lebenszyklus eines Plans und seine Rolle bei der Ressourcenzuweisung sowohl für SageMaker Schulungsjobs als auch für SageMaker HyperPod Cluster.

  • Trainingspläne für einen SageMaker Ausbildungsjob: Das erste Diagramm veranschaulicht den end-to-end Ablauf der Interaktion zwischen einem Trainingsplan und einem SageMaker Trainingsjob.

    Abrechnung, Kapazitätsreservierung mit Schulungsplänen und SageMaker Trainingsjob. Abbildung des Lebenszyklus des Schulungsplans und der Status der von Administratoren und ML-Technikern verwalteten Schulungsjobs.
  • Schulungspläne für SageMaker HyperPod Cluster: Das zweite Diagramm veranschaulicht den end-to-end Ablauf der Interaktion zwischen einem Schulungsplan und einer SageMaker HyperPod Instanzgruppe.

    Abrechnung, Kapazitätsreservierung mit Trainingsplänen und Workflow zur Verwaltung von Instanzgruppen. Abbildung des Lebenszyklus des Schulungsplans und der Status der Instanzgruppen, die von Administratoren und ML-Technikern verwaltet werden.

Unterstützte Instanztypen und Preise AWS-Regionen

Schulungspläne unterstützen Reservierungen für die folgenden spezifischen Hochleistungs-Instance-Typen, die jeweils in ausgewählten Varianten verfügbar sind AWS-Regionen:

  • ml.p4d.24xlarge

  • ml.p 5.48x groß

  • ml.p5e.48x groß

  • ml.p5en.48x groß

  • ml.trn 1.32x groß

  • ml.trn 2.48x groß

  • ml.p6-b200.48x groß

  • ml.c6i-32xlargesc

UltraServers

  • ml.p6e-gb200.36x groß

  • ml.p6e-gb200.72x groß

Anmerkung

Die Verfügbarkeit von Instance-Typen kann sich im Laufe der Zeit ändern. Die meisten up-to-date Informationen zu den verfügbaren Instance-Typen je nach Region sowie zu den jeweiligen Preisen finden Sie unter SageMaker Preise. Scrollen Sie unter On-Demand-Preise nach unten zum Abschnitt SageMaker HyperPod Flexible Trainingspläne von Amazon. Wählen Sie eine Region aus, um die Liste der verfügbaren Instance-Typen anzuzeigen.

Die Verfügbarkeit in mehreren Regionen ermöglicht es, den für Workloads am besten geeigneten Standort auszuwählen, wobei Faktoren wie die Anforderungen an die Datenresidenz und die Nähe zu anderen AWS Diensten berücksichtigt werden.

Wichtig
  • Sie können SageMaker Schulungspläne verwenden, um Instances mit den folgenden Optionen für Reservierungsdauer und Anzahl der Instanzen zu reservieren.

    • Die Reservierungsdauer ist in Ein-Tages-Schritten von 1 bis 182 Tagen verfügbar.

    • Die Optionen für die Anzahl der Reservierungsinstanzen sind 1, 2, 4, 8, 16, 32 oder 64 Instances.

  • Stellen Sie sicher, dass Ihre Training Jobs oder HyperPod Service-Kontingente eine maximale Anzahl von Instanzen pro Instance-Typ zulassen, die die in Ihrem Plan angegebene Anzahl von Instances übersteigt. Informationen zu Ihren aktuellen Kontingenten oder zur Beantragung einer Kontingenterhöhung finden Sie unterZeigen Sie die Kontingente für SageMaker Trainingspläne mithilfe der AWS Managementkonsole an..

UltraServers in SageMaker KI

UltraServers bieten in SageMaker KI eine Reihe von Instanzen an, die über eine Netzwerkdomäne mit hoher Bandbreite miteinander verbunden sind. Der GB2 P6e-00 UltraServer verbindet beispielsweise bis zu 18 p6e-gb200.36xlarge Instanzen unter einer NVLink NVIDIA-Domain. Mit 4 NVIDIA Blackwell GPUs pro Instanz UltraServer unterstützt jeder GB2 P6e-00 72 GPUs, sodass Sie Ihre größten KI-Workloads mit hoher Leistung auf KI ausführen können. SageMaker

Wenn Sie SageMaker KI verwenden UltraServers , erhalten Sie Leistung in Kombination mit der verwalteten Infrastruktur von SageMaker KI, integrierten Funktionen zur Ausfallsicherheit, integrierten Überwachungsfunktionen und nativer Integration mit anderer KI und Diensten. SageMaker AWS Diese Integration ermöglicht es Ihnen, sich auf die Modellentwicklung und -bereitstellung zu konzentrieren, während SageMaker KI die undifferenzierte Schwerarbeit bei der Verwaltung der KI-Infrastruktur übernimmt.

Anmerkung

UltraServers sind nur in der Dallas Local Zone (us-east-1-dfw-2a) verfügbar, einer Erweiterung der Region USA Ost (Nord-Virginia). Weitere Informationen finden Sie unter Erste Schritte mit s AWS Lokale Zone

Überlegungen

Beachten Sie bei der Verwendung UltraServers mit SageMaker KI Folgendes:

  • Sie können es sowohl UltraServers für SageMaker Trainingsaufgaben als SageMaker HyperPodauch für Trainingszwecke verwenden.

  • Sie können nur vollständige Einheiten kaufen UltraServers . Weitere Informationen zu Instance- und Preisinformationen finden Sie unter SageMaker HyperPod Flexible Amazon-Schulungspläne unter Amazon SageMaker AI-Preise.

  • Wenn Sie UltraServers mit verwenden HyperPod, fügt Ihren Ressourcen HyperPod automatisch Topologie-Labels hinzu, um Sie bei der Ressourcenzuweisung zu unterstützen. Weitere Informationen finden Sie unter Topologieorientierte Terminplanung in Amazon verwenden. SageMaker HyperPod

  • SageMaker KI und UltraServers bieten verschiedene Funktionen, die die Resilienz Ihrer Workloads verbessern, darunter präventive Prüfungen und automatische Fehlererkennung und -behebung. Je nachdem, um welches Problem es sich handelt, kann SageMaker KI Aktionen zur Wiederherstellung Ihrer Workloads ausführen, z. B. Instances neu starten, ausgefallene Instances durch Ersatzteile ersetzen und ausgefallene Instances ersetzen. UltraServers

  • UltraServer Um die Ausfallsicherheit zu erhöhen, können Sie Instances innerhalb eines so konfigurieren, dass sie als Ersatzteile verwendet werden. UltraServer Durch die Beibehaltung einer Ersatzinstanz wird sichergestellt, dass SageMaker KI schnell auf einen Instance-Ausfall reagieren kann und gleichzeitig die Auswirkungen auf Ihre Jobs minimiert werden. Wir empfehlen, dass Sie eine Ersatzinstanz pro UltraServer Instanz behalten. Sie müssen keine Ersatzinstanzen reservieren. Dies könnte jedoch die Support-Optionen einschränken und die Wiederherstellung nach einem Ausfall verlangsamen. Sie kaufen im UltraServers Ganzen, sodass die Anzahl der Ersatzteile, die Sie reservieren, keinen Einfluss auf die Preisgestaltung hat.

  • Um den Status und die Instanzen innerhalb einer zu sehen UltraServer, verwenden Sie den ListTrainingPlansAPI-Vorgang oder die AWS Konsole, um Trainingspläne aufzurufen. Mithilfe dieser Tools können Sie die Gesamtzahl der verfügbaren Instances, der aktuell verwendeten Instances, der fehlerhaften Instances, der Anzahl der konfigurierten Ersatzteile und andere Informationen einsehen. Mögliche Gesundheitsstatus sind okimpaired, und. insufficient-data

SageMaker Trainingspläne, Suchverhalten

Bei der Suche nach einem Schulungsplanangebot verwenden SageMaker Schulungspläne den folgenden Ansatz, um die Ressourcenverfügbarkeit und Flexibilität für Benutzer zu maximieren, selbst wenn die Nachfrage hoch ist und reservierte Kapazitätsblöcke knapp sind:

  • Anfängliche kontinuierliche Suche: In SageMaker Trainingsplänen wird zunächst versucht, einen einzelnen, kontinuierlichen Block reservierter Kapazität zu finden, der der angegebenen Dauer innerhalb des Start- und Enddatums entspricht und gleichzeitig alle anderen angegebenen Kriterien erfüllt, einschließlich Zielressource, angeforderter Instanztyp und Anzahl der Instanzen.

  • Suche mit zwei Blöcken: SageMaker Trainingspläne geben kein Ergebnis „Keine Kapazität“ zurück, wenn ein einziger durchgehender Block mit reservierter Kapazität, der alle Kriterien erfüllt, nicht verfügbar ist. Stattdessen wird automatisch versucht, die Anfrage mithilfe von zwei separaten Blöcken für reservierte Kapazität zu erfüllen, wobei die Gesamtdauer auf zwei Zeitsegmente aufgeteilt wird.

    Dieser Ansatz mit zwei Blöcken bietet mehr Flexibilität bei der Ressourcenzuweisung und schützt potenziell stark beanspruchte Instances, die andernfalls nicht verfügbar wären.

Anmerkung

SageMaker Schulungspläne beinhalten bis zu drei Angebote in einem oder zwei Segmenten. Bei einem Plan mit einer Dauer von 48 Stunden könnten SageMaker Trainingspläne beispielsweise einen Plan mit zwei 24-Stunden-Blöcken, einem kontinuierlichen 48-Stunden-Block und zwei Blöcken mit ungleichmäßiger Dauer anbieten.

Überlegungen

Wichtig
  • Trainingspläne können nach dem Kauf nicht mehr geändert werden.

  • Schulungspläne können nicht zwischen AWS Konten oder innerhalb Ihrer AWS Organisation gemeinsam genutzt werden.

  • Bei der Suche nach Schulungsplänen passt SageMaker Training Plans seine Suchstrategie an folgende Kriterien antarget resources:

    Für SageMaker HyperPod Cluster:

    • Die Angebote sind auf eine einzige Availability Zone (AZ) beschränkt.

    • Dies gewährleistet eine konsistente Netzwerkleistung und Datenlokalität innerhalb des Clusters.

    Für SageMaker Ausbildungsjobs:

    • Angebote können sich über mehrere Availability Zones erstrecken.

    • Dies ist besonders relevant, wenn das Planangebot mehrere diskontinuierliche reservierte Kapazitäten enthält.

    • Ein Plan kann beispielsweise Kapazität in AZ-A für einen Block mit reservierter Kapazität und in AZ-B für einen anderen enthalten. SageMaker Mit Schulungsplänen können Workloads je nach Verfügbarkeit der Ressourcen automatisch zwischen Availability Zones (AZs) verschoben werden.

      Dieser Multi-AZ-Ansatz für Schulungsjobs bietet mehr Flexibilität bei der Ressourcenzuweisung und erhöht so die Chancen, geeignete Kapazitäten für Ihr Arbeitspensum zu finden. Sie sollten sich jedoch darüber im Klaren sein, dass Ihre Jobs zu verschiedenen AZs Zeiten Ihres Reservierungszeitraums unterschiedlich ausgeführt werden können.

  • Bei einem Angebot mit zwei Blöcken sollten Benutzer sorgfältig abwägen, ob diese geteilte Zuweisung ihren Workload-Anforderungen entspricht. Dies kann eine Anpassung der Arbeitsplanung oder der Arbeitslastverteilung erfordern, um dem nicht kontinuierlichen Charakter der Reservierung Rechnung zu tragen.